論文の概要: Model-Based Data-Centric AI: Bridging the Divide Between Academic Ideals
and Industrial Pragmatism
- arxiv url: http://arxiv.org/abs/2403.01832v1
- Date: Mon, 4 Mar 2024 08:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:40:39.862552
- Title: Model-Based Data-Centric AI: Bridging the Divide Between Academic Ideals
and Industrial Pragmatism
- Title(参考訳): モデルに基づくデータ中心AI:学術思想と産業プラグマティズムの分断
- Authors: Chanjun Park, Minsoo Khang, Dahyun Kim
- Abstract要約: Data-Centric AIはモデルパフォーマンスのための高品質なデータの優位性に重点を置いているのに対して、Model-Agnostic AIはアルゴリズムの柔軟性を優先している、と私たちは主張する。
この区別は、データ品質に関する学術的な基準が、産業応用の厳密な要求を満たしていないことをしばしば示している。
モデルに基づくデータ中心型AIは、モデル考慮事項をデータ最適化プロセスに統合することにより、これらの違いを整理することを目的としている。
- 参考スコア(独自算出の注目度): 8.938344250520851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper delves into the contrasting roles of data within academic and
industrial spheres, highlighting the divergence between Data-Centric AI and
Model-Agnostic AI approaches. We argue that while Data-Centric AI focuses on
the primacy of high-quality data for model performance, Model-Agnostic AI
prioritizes algorithmic flexibility, often at the expense of data quality
considerations. This distinction reveals that academic standards for data
quality frequently do not meet the rigorous demands of industrial applications,
leading to potential pitfalls in deploying academic models in real-world
settings. Through a comprehensive analysis, we address these disparities,
presenting both the challenges they pose and strategies for bridging the gap.
Furthermore, we propose a novel paradigm: Model-Based Data-Centric AI, which
aims to reconcile these differences by integrating model considerations into
data optimization processes. This approach underscores the necessity for
evolving data requirements that are sensitive to the nuances of both academic
research and industrial deployment. By exploring these discrepancies, we aim to
foster a more nuanced understanding of data's role in AI development and
encourage a convergence of academic and industrial standards to enhance AI's
real-world applicability.
- Abstract(参考訳): 本稿では、データ中心AIとモデル非依存AIのアプローチの相違を強調し、学術分野と産業分野におけるデータの役割を対比する。
Data-Centric AIはモデルパフォーマンスのための高品質なデータの優位性に重点を置いているのに対して、Model-Agnostic AIはアルゴリズムの柔軟性を優先します。
この違いは、データ品質の学術的標準が工業アプリケーションの厳密な要求をしばしば満たさないことを示し、実際の環境での学術モデルの導入における潜在的な落とし穴を招いている。
包括的な分析を通じて,これらの差異に対処し,それらの課題とギャップを橋渡しするための戦略を提示する。
さらに,モデルの考慮事項をデータ最適化プロセスに統合することにより,これらの差異を解消することを目的とした,新しいパラダイムであるモデルベースデータ中心aiを提案する。
このアプローチは、学術研究と産業展開の両方のニュアンスに敏感なデータ要件の進化の必要性を強調するものだ。
これらの不一致を探索することで、AI開発におけるデータの役割をより微妙に理解し、学術的および工業的標準の収束を促進し、AIの現実の応用性を高めることを目指している。
関連論文リスト
- Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Synthetic Data in AI: Challenges, Applications, and Ethical Implications [16.01404243695338]
本稿では,合成データの多面的側面について考察する。
これらのデータセットが持つ可能性のある課題と潜在的なバイアスを強調します。
また、合成データセットに関連する倫理的考察と法的意味についても批判的に論じている。
論文 参考訳(メタデータ) (2024-01-03T09:03:30Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Data-Centric Artificial Intelligence [2.5874041837241304]
データ中心の人工知能(データ中心のAI)は、効率的で効率的なAIベースのシステムを構築する上で、データの体系的な設計とエンジニアリングが不可欠であることを強調する新しいパラダイムである。
関連する用語を定義し、データ中心のパラダイムとモデル中心のパラダイムを対比するための重要な特徴を提供し、データ中心のAIのためのフレームワークを導入します。
論文 参考訳(メタデータ) (2022-12-22T16:41:03Z) - A Comprehensive Review of Trends, Applications and Challenges In
Out-of-Distribution Detection [0.76146285961466]
アウト・オブ・ディストリビューション・データ・サブセットの検出とより包括的な一般化の実現に焦点をあてた研究分野が誕生した。
多くのディープラーニングベースのモデルは、ベンチマークデータセットでほぼ完璧な結果を得たため、これらのモデルの信頼性と信頼性を評価する必要性は、これまで以上に強く感じられる。
本稿では,本分野における70以上の論文のレビューに加えて,今後の研究の課題と方向性を提示するとともに,データシフトの多種多様さを統一的に把握し,より一般化するためのソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-26T18:13:14Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - INTERN: A New Learning Paradigm Towards General Vision [117.3343347061931]
我々はInterNという新しい学習パラダイムを開発した。
複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。
ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文 参考訳(メタデータ) (2021-11-16T18:42:50Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。