論文の概要: TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.02196v2
- Date: Tue, 03 Feb 2026 04:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.742391
- Title: TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
- Title(参考訳): TIDE:LLM剤の試験時間改善の軌道ベース診断評価
- Authors: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin,
- Abstract要約: 自律型LLMエージェントの最近の進歩は、環境との反復的相互作用によって性能を向上させる能力を示している。
本稿では,TTIを3つの包括的かつ相互接続的な次元に分解するエージェント非依存および環境非依存のフレームワークであるテスト時間改善診断評価(TIDE)を提案する。
- 参考スコア(独自算出の注目度): 43.376952807616256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.
- Abstract(参考訳): 自律型LLMエージェントの最近の進歩は、環境との反復的相互作用によって性能を向上させる能力を示している。
このパラダイムをテスト時間改善(TTI)と定義します。
しかし、TTIが成功するか失敗するかというメカニズムはいまだよく理解されておらず、既存の評価基準では、タスク最適化の効率、誤動作後の振る舞い適応、タスク完了のためのワーキングメモリの具体的な有用性は把握できない。
これらのギャップに対処するために,TTIを3つの包括的・相互接続的な次元に分解するエージェントに依存しない,環境に依存しないフレームワークであるテスト時間改善診断評価(TIDE)を提案する。
本フレームワークは,(1)タスク完了の時間的ダイナミクス,(2)再帰的ループ動作によるパフォーマンスの制約,(3)蓄積メモリによるパフォーマンスの制約を計測する。
さまざまなエージェントや環境にわたる広範な実験を通じて、TIDEはエージェントのパフォーマンス向上には内部推論のスケーリング以上のものが必要だと強調し、エージェントと環境の間のインタラクションのダイナミクスを明示的に最適化するよう要求する。
関連論文リスト
- From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing [5.7613138934999455]
大規模言語モデル(LLM)は、浸透テストの自動化や強化にますます使用されているが、その有効性とアタックフェーズ間の信頼性は未定である。
本稿では, 単一エージェントからモジュール設計まで, 現実的な浸透試験シナリオにおける複数のLCMエージェントの包括的評価を行う。
論文 参考訳(メタデータ) (2025-09-16T21:51:59Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。