論文の概要: Can Generalist Agents Automate Data Curation?
- arxiv url: http://arxiv.org/abs/2606.04261v1
- Date: Tue, 02 Jun 2026 22:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.405293
- Title: Can Generalist Agents Automate Data Curation?
- Title(参考訳): ジェネラリストエージェントはデータキュレーションを自動化できるか?
- Authors: Feiyang Kang, Hanze Li, Adam Nguyen, Mahavir Dabas, Jiaqi W. Ma, Frederic Sala, Dawn Song, Ruoxi Jia,
- Abstract要約: トレーニングデータのキュレーションは、現代のAI開発において、もっとも重要だが労働集約的な部分のひとつだ。
一般のコーディングエージェントがこのデータキュレーションループを自動化できるかどうかを問う。
モデル、トレーニングレシピ、評価スイートを修正するエージェント中心のベンチマークである*Curation-Bench*を紹介します。
- 参考スコア(独自算出の注目度): 58.652262227632406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.
- Abstract(参考訳): トレーニングデータのキュレーションは、現代AI開発において最も重要かつ労働集約的な部分の1つである。
一般のコーディングエージェントがこのデータキュレーションループを自動化できるかどうかを問う。
エージェント中心のベンチマークである *Curation-Bench* を導入し、モデル、トレーニングレシピ、評価スイートを修正し、エージェントにデータ検査のためのコマンドラインアクセスを提供し、ポリシーを実装し、それらを固定されたトレーニング/評価パイプラインに送信し、修正する。
視覚言語による命令チューニングのインスタンス化では、アウト・オブ・ザ・ボックスのエージェントは10回のイテレーションで強力なデータ選択ベースラインに達する。
エージェントは、与えられた戦略ガイドや論文参照であっても、新しい政策ファミリを探索するよりも、主にローカルポリシーの変種を調整します。
各イテレーションを引用し、インスタンス化し、事前のメソッドシフトエージェントをメソッド誘導探索に適応させる必要のあるスコープ。
この足場付きエージェントは、データ予算の10分の1で、強力な公開ベースラインを上回るデータ選択ポリシを、自動で - 人間の設計入力なしで - 構成する。
全体としては、現在のエージェントはキュレーションループを実行することができるが、信頼できるデータ研究には足場付きメソッド適応が必要であり、オープンエンドプロンプトのみではない。
コードとベンチマークはオープンソースである。
関連論文リスト
- AgentDisCo: Towards Disentanglement and Collaboration in Open-ended Deep Research Agents [21.086121542846907]
本稿では, 逆最適化問題として深層研究を定式化する, 分散協調型エージェントアーキテクチャであるAgenDisCoを提案する。
AgentDisCoは、生成されたアウトラインの評価と検索クエリの精査に批評家エージェントと、更新された結果の検索とアウトラインの修正にジェネレータエージェントを使用する。
全体的なワークフローは、手作りと自動検出の両方の設計戦略をサポートする。
論文 参考訳(メタデータ) (2026-05-12T08:14:15Z) - AgentSim: A Platform for Verifiable Agent-Trace Simulation [3.2058241360543254]
AgentSimは、RAGエージェントをシミュレートするオープンソースプラットフォームである。
これは、任意のドキュメントコレクションに対するエージェント推論の検証可能な段階的なトレースを生成する。
マルチモデル検証パイプラインとアクティブなHuman-in-the-loopプロセスを組み合わせる。
論文 参考訳(メタデータ) (2026-04-29T13:19:38Z) - Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMs [28.877758891217184]
RADARは、テスト時間評価タスクとポリシートレーニングデータを比較するためのフレームワークである。
本稿では,視覚言語モデル(VLM)が一般化のためのデータ解析に有効であることを示す。
我々はRADARを大規模データセットに拡張し、人間の定義したベンチマーク条件との一致を観察する。
論文 参考訳(メタデータ) (2026-03-12T01:33:06Z) - What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - Issue-Oriented Agent-Based Framework for Automated Review Comment Generation [15.04868140672973]
RevAgentは、コードレビューコメントのための新しいエージェントベースのイシュー指向フレームワークである。
タスクは生成、識別、訓練の3段階に分けられる。
最先端のPLMとLMベースのベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-01T11:44:11Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。