論文の概要: Time Dependency, Data Flow, and Competitive Advantage
- arxiv url: http://arxiv.org/abs/2203.09128v1
- Date: Thu, 17 Mar 2022 07:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 03:30:30.383213
- Title: Time Dependency, Data Flow, and Competitive Advantage
- Title(参考訳): 時間依存、データフロー、競争上の優位性
- Authors: Ehsan Valavi, Joel Hestness, Marco Iansiti, Newsha Ardalani, Feng Zhu,
Karim R. Lakhani
- Abstract要約: 我々は、時間とともにデータの価値がどのように変化し、この変化がコンテキストやビジネス領域によってどのように変化するかを研究する。
Reddit.comのデータに注目し、さまざまなRedditトピック(Subreddits)で価値の時間依存性を比較します。
データ価値が崩壊するビジネス分野での競争は、競争優位を得るための戦略を急速に変えると我々は主張する。
- 参考スコア(独自算出の注目度): 2.902872177119414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is fundamental to machine learning-based products and services and is
considered strategic due to its externalities for businesses, governments,
non-profits, and more generally for society. It is renowned that the value of
organizations (businesses, government agencies and programs, and even
industries) scales with the volume of available data. What is often less
appreciated is that the data value in making useful organizational predictions
will range widely and is prominently a function of data characteristics and
underlying algorithms.
In this research, our goal is to study how the value of data changes over
time and how this change varies across contexts and business areas (e.g. next
word prediction in the context of history, sports, politics). We focus on data
from Reddit.com and compare the value's time-dependency across various Reddit
topics (Subreddits). We make this comparison by measuring the rate at which
user-generated text data loses its relevance to the algorithmic prediction of
conversations. We show that different subreddits have different rates of
relevance decline over time.
Relating the text topics to various business areas of interest, we argue that
competing in a business area in which data value decays rapidly alters
strategies to acquire competitive advantage. When data value decays rapidly,
access to a continuous flow of data will be more valuable than access to a
fixed stock of data. In this kind of setting, improving user engagement and
increasing user-base help creating and maintaining a competitive advantage.
- Abstract(参考訳): データは機械学習ベースの製品やサービスの基本であり、企業、政府、非営利団体、そしてより一般的に社会の外部性のために戦略的と考えられている。
組織(企業、政府機関、プログラム、さらには産業)の価値は、利用可能なデータ量とともにスケールすることが有名である。
しばしばあまり理解されていないのは、有用な組織予測を行う際のデータ価値が広範囲にまたがり、データ特性と基盤となるアルゴリズムの機能であることだ。
本研究では,データの価値が時間とともにどのように変化するか,その変化が文脈やビジネス領域(例えば,歴史・スポーツ・政治の文脈における次の単語予測)にどのように変化するかを検討することを目的とする。
Reddit.comのデータに注目し、さまざまなRedditトピック(Subreddits)で価値の時間依存性を比較します。
この比較は,ユーザ生成テキストデータが会話のアルゴリズム的予測との関係を損なう速度を計測することによって行う。
異なるサブレディットは時間とともに関連性の低下率が異なることを示す。
テキストトピックをさまざまなビジネス分野に関連付けることで、データ価値が崩壊するビジネス分野における競合は、競争優位を得るための戦略を急速に変えると論じる。
データの価値が急速に低下すると、連続的なデータフローへのアクセスは、固定されたデータへのアクセスよりも価値がある。
このような環境では、ユーザエンゲージメントの向上とユーザベースの増大は、競争上の優位性の作成と維持に役立つ。
関連論文リスト
- Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Time and the Value of Data [0.3010893618491329]
マネージャは、より多くのデータを集めることで、機械学習モデルの精度が継続的に向上する、とよく考えます。
我々は、データが時間とともに関連性を失うとき、古い(無関係な)データの無限の供給を回避せずに、最近の限られた量のデータを集めることが最適であると主張している。
論文 参考訳(メタデータ) (2022-03-17T06:53:46Z) - Faking feature importance: A cautionary tale on the use of
differentially-private synthetic data [3.631918877491949]
本稿では,生データから得られる特徴量と合成データから得られる特徴量との一致を実証的に分析する。
プライバシのレベルによって異なるため、さまざまなユーティリティー対策を適用して、特徴的重要性の合意を定量化します。
この研究は、金融や医療といった分野において、高感度データセットの合成バージョンを開発する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2022-03-02T19:11:43Z) - "If we didn't solve small data in the past, how can we solve Big Data
today?" [0.0]
私たちは、"小さい"データや"大きい"データといった用語を調査し、それらの属性を理解し、価値を付加する方法について検討することを目指しています。
この研究によると、どんなに小さなデータが使われたにせよ、企業は依然として正しい技術とビジネスビジョンでビッグデータを活用できる。
論文 参考訳(メタデータ) (2021-11-08T16:31:01Z) - A Philosophy of Data [91.3755431537592]
我々は、統計計算に必要な基本特性から統計データの定義まで研究する。
我々は、有用なデータの必要性は、プロパティを根本的にユニークか等しく理解することを規則化する必要があると論じている。
データとデータ技術への依存度が高まるにつれて、この2つの特徴は現実の集合概念に影響を与えます。
論文 参考訳(メタデータ) (2020-04-15T14:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。