Fugu-MT 論文翻訳(概要): Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

論文の概要: Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

arxiv url: http://arxiv.org/abs/2605.05724v1
Date: Thu, 07 May 2026 06:13:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.555738
Title: Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes
Title（参考訳）: 専門エージェントによる自動車研究 : 効果的・非運動的学習レシピの開発
Authors: Jingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong,
Abstract要約: 外部測定により駆動される閉じた経験ループとしての自動車研究について検討する。提出された各トライアルには、仮説、実行可能なコード編集、評価者が所有する結果、次の提案を形作るフィードバックが含まれる。このループを、レシピの表面を分割し、試行錯誤で測定された系統を共有する専門エージェントでインスタンス化する。
参考スコア（独自算出の注目度）: 24.516406575400016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by $0.81\%$, raises NanoChat-D12 CORE by $38.7\%$, and reduces CIFAR-10 Airbench96 wallclock by $4.59\%$, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.
Abstract（参考訳）: 外部測定により駆動される閉じた経験ループとしての自動車研究について検討する。提出された各トライアルには、仮説、実行可能なコード編集、評価者が所有する結果、次の提案を形作るフィードバックが含まれる。出力は生成された紙や単一のモデルチェックポイントではなく、提案、コード差分、実験、スコア、失敗ラベルの監査可能な軌跡である。このループを、レシピの表面を分割し、試行錯誤で測定された系統を共有する専門エージェントでインスタンス化する。中心的な経験的発見は、系統フィードバックにより、エージェントはクラッシュ、予算オーバーラン、サイズ失敗、そして精度の低いミスなどの評価結果を、ワンショットの提案ではなく、後のプログラムレベルのレシピ編集に変換することができるということだ。 1,197回のヘッドラインラントライアルと600のパラメータゴルフコントロールトライアルが一度のセットアップとローンチ後に行われたが、人間は提案を選択したり、レシピを編集したり、スコアをオーバーライドしたり、探索中に失敗したトライアルを修復したりしなかった。 3つの見出し実行において、同じ提出された裁判所ループはパラメータ・ゴルフの検証bpbを$0.81\%、NanoChat-D12 COREを$38.7\%、CIFAR-10 Airbench96のウォールクロックを$4.59\%、それぞれのタスクは独自の外部評価器と合法性チェックによって測定される。このトレースには、157のヘッドライン実行リクエストの厳格なアーキテクチャドメイン監査と、NanoChatのアテンションカーネルパスの変更などのプログラム書き換えが含まれている。このスコープ内では、ループが自律的にコードを書き、実験を提出し、フィードバックを吸収し、既知のテクニックを各環境に適用し、組み合わせ、公開開始レシピを改善する。

関連論文リスト

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents [6.158612515104146]
エージェントフィードバックとレビュアーフィードバックのトレードオフを測定するために、ヘルプフルネス・ハームフルネスメトリクスを導入します。我々はBFCLとTau2-Bench(マルチターンステートフルシナリオ)に対するアプローチを評価し、無関係検出では+5.5%、マルチターンタスクでは+7.1%を達成した。 GPT-4oでは,評価モデルo3-miniが3:1の利益率と2.1:1の利益率を達成した。
論文参考訳（メタデータ） (2026-04-29T22:09:47Z)
The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文参考訳（メタデータ） (2026-04-27T16:23:09Z)
Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文参考訳（メタデータ） (2026-04-20T13:25:40Z)
Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文参考訳（メタデータ） (2026-04-03T02:23:25Z)
DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review [22.737940168374546]
DeepReviewer2.0は、出力契約を中心に構築されたプロセス制御エージェントレビューシステムである。 134 ICLR2025は3つの固定されたプロトコルの下で提出され、DeepReviewer2.0を実行する196BモデルはGemini-3.1-Pro-previewより優れている。
論文参考訳（メタデータ） (2026-03-03T09:02:17Z)
Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。評価ループにtextbfsolver を配置するベンチマークを2つ導入する。ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文参考訳（メタデータ） (2026-01-28T20:02:44Z)
Sample-Efficient Expert Query Control in Active Imitation Learning via Conformal Prediction [2.344992278528697]
アクティブ・イミテーション・ラーニング(CRSAIL)のためのコンフォーマライズ・リジェクション・サンプリングについて述べる。 CRSAILは、K$-thのエキスパートステートとの距離によって、状態の新規性を評価する。これにより、エキスパートクエリの総数は、DAggerに対して96%、以前のAILメソッドよりも最大65%削減される。
論文参考訳（メタデータ） (2025-11-29T11:58:21Z)
A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文参考訳（メタデータ） (2023-11-02T15:41:09Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Certified Error Control of Candidate Set Pruning for Two-Stage Relevance Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文参考訳（メタデータ） (2022-05-19T16:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。