Fugu-MT 論文翻訳(概要): Data Collection and Labeling Techniques for Machine Learning

論文の概要: Data Collection and Labeling Techniques for Machine Learning

arxiv url: http://arxiv.org/abs/2407.12793v1
Date: Wed, 19 Jun 2024 06:01:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 08:57:39.463058
Title: Data Collection and Labeling Techniques for Machine Learning
Title（参考訳）: 機械学習のためのデータ収集とラベル付け技術
Authors: Qianyu Huang, Tongfang Zhao,
Abstract要約: データ収集とラベル付けは、機械学習アプリケーションのデプロイにおいて重要なボトルネックである。本稿では,データ収集,データラベリング,既存データおよびモデルの改良における最先端手法について概説する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data collection and labeling are critical bottlenecks in the deployment of machine learning applications. With the increasing complexity and diversity of applications, the need for efficient and scalable data collection and labeling techniques has become paramount. This paper provides a review of the state-of-the-art methods in data collection, data labeling, and the improvement of existing data and models. By integrating perspectives from both the machine learning and data management communities, we aim to provide a holistic view of the current landscape and identify future research directions.
Abstract（参考訳）: データ収集とラベル付けは、機械学習アプリケーションのデプロイにおいて重要なボトルネックである。アプリケーションの複雑さと多様性の増大により、効率的でスケーラブルなデータ収集とラベル付け技術の必要性が最重要になっている。本稿では,データ収集,データラベリング,既存データおよびモデルの改良における最先端手法について概説する。機械学習とデータ管理の両コミュニティの視点を統合することで、現在の景観の全体像を提供し、今後の研究方向性を明らかにすることを目指している。

関連論文リスト

A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.25829868360603]
タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
論文参考訳（メタデータ） (2025-02-12T22:34:50Z)
Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation [37.43210238341124]
この調査では、データ空間の洗練に欠かせない技術として、特徴選択と特徴生成を強調し、データ中心型AIの重要な側面について検討する。本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
論文参考訳（メタデータ） (2025-01-17T21:05:09Z)
Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文参考訳（メタデータ） (2024-05-04T16:21:05Z)
AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文参考訳（メタデータ） (2024-04-15T12:01:42Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Towards Data-centric Graph Machine Learning: Review and Outlook [120.64417630324378]
データ中心グラフ機械学習(DC-GML)という,グラフデータライフサイクルのすべての段階を包含する体系的なフレームワークを導入する。各段階の完全な分類法が示され、3つの重要なグラフ中心の質問に答える。我々は、DC-GMLドメインの将来展望を指摘し、その進歩と応用をナビゲートするための洞察を提供する。
論文参考訳（メタデータ） (2023-09-20T00:40:13Z)
Designing Data: Proactive Data Collection and Iteration for Machine Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文参考訳（メタデータ） (2023-01-24T21:40:29Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文参考訳（メタデータ） (2021-10-24T22:33:52Z)
Data and its (dis)contents: A survey of dataset development and use in machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文参考訳（メタデータ） (2020-12-09T22:13:13Z)
Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文参考訳（メタデータ） (2020-08-13T08:04:27Z)
Monitoring and explainability of models in production [58.720142291102135]
デプロイされたモデルを監視することは、高品質の機械学習対応サービスの継続的なプロビジョニングに不可欠である。これらの領域でソリューションの実装を成功させる上での課題を,オープンソースツールを使用した本番環境対応ソリューションの最近の例で論じる。
論文参考訳（メタデータ） (2020-07-13T10:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。