論文の概要: Data Collection and Labeling Techniques for Machine Learning
- arxiv url: http://arxiv.org/abs/2407.12793v1
- Date: Wed, 19 Jun 2024 06:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:57:39.463058
- Title: Data Collection and Labeling Techniques for Machine Learning
- Title(参考訳): 機械学習のためのデータ収集とラベル付け技術
- Authors: Qianyu Huang, Tongfang Zhao,
- Abstract要約: データ収集とラベル付けは、機械学習アプリケーションのデプロイにおいて重要なボトルネックである。
本稿では,データ収集,データラベリング,既存データおよびモデルの改良における最先端手法について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data collection and labeling are critical bottlenecks in the deployment of machine learning applications. With the increasing complexity and diversity of applications, the need for efficient and scalable data collection and labeling techniques has become paramount. This paper provides a review of the state-of-the-art methods in data collection, data labeling, and the improvement of existing data and models. By integrating perspectives from both the machine learning and data management communities, we aim to provide a holistic view of the current landscape and identify future research directions.
- Abstract(参考訳): データ収集とラベル付けは、機械学習アプリケーションのデプロイにおいて重要なボトルネックである。
アプリケーションの複雑さと多様性の増大により、効率的でスケーラブルなデータ収集とラベル付け技術の必要性が最重要になっている。
本稿では,データ収集,データラベリング,既存データおよびモデルの改良における最先端手法について概説する。
機械学習とデータ管理の両コミュニティの視点を統合することで、現在の景観の全体像を提供し、今後の研究方向性を明らかにすることを目指している。
関連論文リスト
- Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。
機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文 参考訳(メタデータ) (2024-05-04T16:21:05Z) - AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Towards Data-centric Graph Machine Learning: Review and Outlook [120.64417630324378]
データ中心グラフ機械学習(DC-GML)という,グラフデータライフサイクルのすべての段階を包含する体系的なフレームワークを導入する。
各段階の完全な分類法が示され、3つの重要なグラフ中心の質問に答える。
我々は、DC-GMLドメインの将来展望を指摘し、その進歩と応用をナビゲートするための洞察を提供する。
論文 参考訳(メタデータ) (2023-09-20T00:40:13Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Monitoring and explainability of models in production [58.720142291102135]
デプロイされたモデルを監視することは、高品質の機械学習対応サービスの継続的なプロビジョニングに不可欠である。
これらの領域でソリューションの実装を成功させる上での課題を,オープンソースツールを使用した本番環境対応ソリューションの最近の例で論じる。
論文 参考訳(メタデータ) (2020-07-13T10:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。