論文の概要: AutoHarness: improving LLM agents by automatically synthesizing a code harness
- arxiv url: http://arxiv.org/abs/2603.03329v1
- Date: Tue, 10 Feb 2026 14:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.157631
- Title: AutoHarness: improving LLM agents by automatically synthesizing a code harness
- Title(参考訳): AutoHarness: コードハーネスの自動合成によるLLMエージェントの改善
- Authors: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy,
- Abstract要約: 最近のKaggle GameArenaチェス大会では、ジェミニ2.5-Flashの損失の78%が違法な動きによるものだった。
本稿では,Gemini-2.5-Flashがこのようなコードハーネスを自動的に生成できることを実証する。
その結果、コードポリシーは16のTextArena 1-playerゲームでGemini-2.5-ProやGPT-5.2-Highよりも平均的な報酬を受ける。
- 参考スコア(独自算出の注目度): 12.769239134972269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant strides in language models in the last few years, when used as agents, such models often try to perform actions that are not just suboptimal for a given state, but are strictly prohibited by the external environment. For example, in the recent Kaggle GameArena chess competition, 78% of Gemini-2.5-Flash losses were attributed to illegal moves. Often people manually write "harnesses" around LLMs to prevent such failures. In this paper, we demonstrate that Gemini-2.5-Flash can automatically synthesize such a code harness, using a small number of rounds of iterative code refinement given feedback from the (game) environment. The resulting harness prevents all illegal moves in 145 different TextArena games (both 1-player and 2-player), enabling the smaller Gemini-2.5-Flash model to outperform larger models, such as Gemini-2.5-Pro. Pushing our technique to the limit, we can get Gemini-2.5-Flash to generate the entire policy in code, thus eliminating the need to use the LLM at decision making time. The resulting code-policy receives a higher average reward than Gemini-2.5-Pro and GPT-5.2-High on 16 TextArena 1-player games. Our results show that using a smaller model to synthesize a custom code harness (or entire policy) can outperform a much larger model, while also being more cost effective.
- Abstract(参考訳): ここ数年、言語モデルに大きな進歩があったが、エージェントとして使われると、そのようなモデルは、与えられた状態に最適なだけでなく、外部環境によって厳格に禁止されているアクションを実行しようとすることが多い。
例えば、最近のKaggle GameArenaチェス大会では、Gemini-2.5-Flashの損失の78%が違法な動きによるものだった。
多くの場合、このような失敗を防ぐために、手動で LLM の周りに "ハーネス" を書きます。
本稿では,Gemini-2.5-Flashが,ゲーム環境からのフィードバックに応じて,少数の反復的コード改善ラウンドを用いて,このようなコードハーネスを自動で生成できることを実証する。
その結果、145種類のTextArenaゲーム(1-playerと2-playerの両方)における全ての違法な動きを防ぎ、より小さなGemini-2.5-FlashモデルがGemini-2.5-Proのような大型モデルより優れている。
テクニックを限界まで押し上げれば、Gemini-2.5-Flashを使ってコード内のポリシ全体を生成できるので、意思決定時にLCMを使用する必要がなくなるのです。
その結果、コードポリシーは16のTextArena 1-playerゲームでGemini-2.5-ProやGPT-5.2-Highよりも平均的な報酬を受ける。
我々の結果は、より小さなモデルを使ってカスタムコードハーネス(またはポリシー全体)を合成することで、はるかに大きなモデルより優れると同時に、コスト効率も高いことを示した。
関連論文リスト
- Review Beats Planning: Dual-Model Interaction Patterns for Code Synthesis [0.0]
HumanEval+では、Plan-then-codeはコードスペシャリスト単独に比べてパフォーマンスを2.4パーセント低下させる。
コードスペシャリストが自由に生成し、計画ではなく推論モデルレビューを行うと、同じハードウェア上の同じ2つのモデルが90.2%のパス@1を達成する。
論文 参考訳(メタデータ) (2026-03-03T16:57:14Z) - Code World Models for General Game Playing [22.382021070682256]
我々はLarge Language Modelsを用いて、自然言語規則とゲーム軌跡をPythonコードとして表現された形式的で実行可能な世界モデルに変換する。
この生成モデルは、高性能計画アルゴリズムの検証可能なシミュレーションエンジンとして機能する。
提案手法は,10ゲーム中9ゲームにおいて,Gemini 2.5 Proより優れているか,あるいは一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-06T07:16:07Z) - Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities [1367.900085272269]
Gemini 2.5 Proは私たちの最も有能なモデルであり、フロンティアコーディングと推論ベンチマークでSoTAのパフォーマンスを実現しています。
Gemini 2.5 Flashは計算とレイテンシの要求のごく一部で優れた推論機能を提供する。
Gemini 2.0 FlashとFlash-Liteは低レイテンシと低コストでハイパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-07-07T17:36:04Z) - VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [70.00000053847738]
物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。
現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。
物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
論文 参考訳(メタデータ) (2025-05-02T15:58:38Z) - Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity [4.458584890504334]
コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。
近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-18T18:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。