論文の概要: TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.02196v2
- Date: Tue, 03 Feb 2026 04:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.742391
- Title: TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
- Title(参考訳): TIDE:LLM剤の試験時間改善の軌道ベース診断評価
- Authors: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin,
- Abstract要約: 自律型LLMエージェントの最近の進歩は、環境との反復的相互作用によって性能を向上させる能力を示している。
本稿では,TTIを3つの包括的かつ相互接続的な次元に分解するエージェント非依存および環境非依存のフレームワークであるテスト時間改善診断評価(TIDE)を提案する。
- 参考スコア(独自算出の注目度): 43.376952807616256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.
- Abstract(参考訳): 自律型LLMエージェントの最近の進歩は、環境との反復的相互作用によって性能を向上させる能力を示している。
このパラダイムをテスト時間改善(TTI)と定義します。
しかし、TTIが成功するか失敗するかというメカニズムはいまだよく理解されておらず、既存の評価基準では、タスク最適化の効率、誤動作後の振る舞い適応、タスク完了のためのワーキングメモリの具体的な有用性は把握できない。
これらのギャップに対処するために,TTIを3つの包括的・相互接続的な次元に分解するエージェントに依存しない,環境に依存しないフレームワークであるテスト時間改善診断評価(TIDE)を提案する。
本フレームワークは,(1)タスク完了の時間的ダイナミクス,(2)再帰的ループ動作によるパフォーマンスの制約,(3)蓄積メモリによるパフォーマンスの制約を計測する。
さまざまなエージェントや環境にわたる広範な実験を通じて、TIDEはエージェントのパフォーマンス向上には内部推論のスケーリング以上のものが必要だと強調し、エージェントと環境の間のインタラクションのダイナミクスを明示的に最適化するよう要求する。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents [54.18201810286764]
LLM(Large Language Models)に基づくツール利用エージェントは、数学的推論やマルチホップ質問応答といったタスクに優れる。
長い道のりでは、エージェントはしばしば過度で低品質なツールコールをトリガーし、レイテンシを増大させ、推論性能を低下させる。
本稿では,エントロピー低減を監視信号として使用し,ツール使用行動の最適化ニーズに対処する2つの報奨戦略を設計する。
論文 参考訳(メタデータ) (2026-02-02T12:52:14Z) - From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing [5.7613138934999455]
大規模言語モデル(LLM)は、浸透テストの自動化や強化にますます使用されているが、その有効性とアタックフェーズ間の信頼性は未定である。
本稿では, 単一エージェントからモジュール設計まで, 現実的な浸透試験シナリオにおける複数のLCMエージェントの包括的評価を行う。
論文 参考訳(メタデータ) (2025-09-16T21:51:59Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。