論文の概要: SIA: Self Improving AI with Harness & Weight Updates
- arxiv url: http://arxiv.org/abs/2605.27276v2
- Date: Thu, 28 May 2026 08:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.748338
- Title: SIA: Self Improving AI with Harness & Weight Updates
- Title(参考訳): SIA: ハーネスとウェイトアップデートによるAIの自己改善
- Authors: Prannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran,
- Abstract要約: 人間はAIの構築と改善のボトルネックです。
言語モデルエージェントがハーネスとタスク固有のエージェントの重みを更新する自己改善ループであるSIAを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans are the bottleneck in building and improving AI. Both the models and the agents that wrap them are written, tuned, and corrected by people. The long-horizon goal of an AI that can figure out how to improve itself remains open. Two largely disjoint research lines attack this bottleneck. The harness-update school has a meta-agent rewrite the scaffold of a task-specific agent (its tools, prompts, retry logic, and search procedure) while the model weights are held fixed. The test-time training school uses hand-written RL pipelines to update the model's own weights on task feedback while the harness is held fixed. These two silos operate in isolation. We propose SIA, a self-improving loop in which a language-model agent (the Feedback-Agent) updates both the harness and the weights of a task-specific agent. We evaluate across three contrasting domains: Chinese legal charge classification, low-level GPU kernel optimisation, and single-cell RNA denoising. Combining both levers outperforms scaffold iteration alone on all three benchmarks. SIA-W+H achieves 25.1% over prior SOTA on LawBench, 12.4% faster GPU kernels than prior SOTA (1,017 vs 1,161 μs), and 20.4% over prior SOTA on denoising. Harness updates make the model agentic, shaping how it searches and acts, while weight updates build the domain intuition that no prompt or scaffold can instil.
- Abstract(参考訳): 人間はAIの構築と改善のボトルネックです。
モデルとそれをラップするエージェントの両方が、人によって書かれ、調整され、修正される。
自己改善の方法を見つけることができるAIの長期的な目標は、まだオープンである。
2つの大きな不連続な研究線がこのボトルネックを攻撃している。
ハーネス更新学校は、モデルウェイトが固定されている間、タスク固有のエージェント(ツール、プロンプト、再試行ロジック、探索手順)の足場を書き換えるメタエージェントを有する。
テストタイムトレーニングスクールは手書きのRLパイプラインを使用して、ハーネスが固定されている間、モデル自身のタスクフィードバックの重みを更新する。
これら2つのサイロは分離して動作する。
本稿では、言語モデルエージェント(フィードバックエージェント)がハーネスとタスク固有のエージェントの重みを更新する自己改善ループであるSIAを提案する。
我々は,中国の法定電荷分類,低レベルGPUカーネル最適化,単細胞RNAデノナイズという3つの対照的な領域について評価を行った。
両方のレバーを組み合わせることで、スニペットのイテレーションは3つのベンチマークで単独でパフォーマンスが向上する。
SIA-W+HはLawBenchのSOTAよりも25.1%、SOTAの12.4%(1,017対1,161μs)、SOTAの20.4%の高速化を実現している。
重み更新はドメイン直感を構築し、プロンプトや足場が組み込まれない。
関連論文リスト
- From Model Scaling to System Scaling: Scaling the Harness in Agentic AI [4.802305157491253]
本稿では,エージェントAIの次なるボトルネックをシステムスケーリングとして検討する。
我々は、このシフトをハーネスのスケーリングと呼び、基礎モデルを取り巻く構造化された実行層を設計、評価、最適化の第一級のオブジェクトとして扱います。
私たちの主張では、エージェントAIの今後の進歩は、より強力な基礎モデルと同じくらい、システム設計に依存します。
論文 参考訳(メタデータ) (2026-05-25T17:59:36Z) - Workspace Optimization: How to Train Your Agent [49.579258311548635]
我々はエージェントのEmphworkspaceであり、それが読み取り、書き込み、テストする構造化された外部基質であると主張している。
本稿では,重み空間トレーニングの構造を反映して,作業空間を進化させる原理的手法を提案する。
ARC-AGI-3のマルチエージェントハーネスであるDreamTeamのアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-05-10T16:52:10Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。
静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。
3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文 参考訳(メタデータ) (2025-07-24T19:12:32Z) - NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining [34.41455335920275]
ドメイン、解像度、命令の複雑さ、スタイルにまたがる高忠実度三重項をマイニングする、自動化されたモジュラーパイプラインを提案する。
インバージョンと合成ブートストラップは、およそ2.6倍の精度でマイニングセットを拡大し、大規模な高忠実度トレーニングデータを可能にする。
NHR-Editは、720kの高品質なトリプルのオープンデータセットで、数百万のガイド付き世代とバリデータパスを通じて産業規模でキュレートされています。
論文 参考訳(メタデータ) (2025-07-18T17:50:00Z) - Model Ratatouille: Recycling Diverse Models for Out-of-Distribution
Generalization [99.6826401545377]
ファウンデーションモデルは、AIシステムの構築方法を再定義している。実践者は、機械学習ソリューションを構築するための標準手順に従う。
我々は,多種多様な補助的タスクにおいて,同じ基礎モデルの複数の微調整をリサイクルする新しい戦略であるモデルラタトゥーイユを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:21:46Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。