論文の概要: TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2602.01675v1
- Date: Mon, 02 Feb 2026 05:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.932756
- Title: TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios
- Title(参考訳): TRIP-Bench: リアルタイムシナリオにおける長距離対話型エージェントのベンチマーク
- Authors: Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo, Chenyang Zhang, Shuaiyu Zhou, Zengjie Hu, Dailin Li, Jingwen Xu, Kaimin Wang, Wenhao Liu, Tianlong Li, Fengpeng Yue, Feng Hong, Cao Liu, Ke Zeng,
- Abstract要約: TRIP-Benchは、現実的な旅行計画シナリオを基盤とした長期水平ベンチマークである。
対話は最大15のユーザー・ターンにまたがり、150以上のツール・コールを伴い、コンテキストのトークンが200万を超えている可能性がある。
実験によると、高度なモデルでさえ、簡単な分割で50%成功し、ハードサブセットでは10%未満のパフォーマンスが低下している。
- 参考スコア(独自算出の注目度): 12.553634759736601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM-based agents are deployed in increasingly complex real-world settings, existing benchmarks underrepresent key challenges such as enforcing global constraints, coordinating multi-tool reasoning, and adapting to evolving user behavior over long, multi-turn interactions. To bridge this gap, we introduce \textbf{TRIP-Bench}, a long-horizon benchmark grounded in realistic travel-planning scenarios. TRIP-Bench leverages real-world data, offers 18 curated tools and 40+ travel requirements, and supports automated evaluation. It includes splits of varying difficulty; the hard split emphasizes long and ambiguous interactions, style shifts, feasibility changes, and iterative version revision. Dialogues span up to 15 user turns, can involve 150+ tool calls, and may exceed 200k tokens of context. Experiments show that even advanced models achieve at most 50\% success on the easy split, with performance dropping below 10\% on hard subsets. We further propose \textbf{GTPO}, an online multi-turn reinforcement learning method with specialized reward normalization and reward differencing. Applied to Qwen2.5-32B-Instruct, GTPO improves constraint satisfaction and interaction robustness, outperforming Gemini-3-Pro in our evaluation. We expect TRIP-Bench to advance practical long-horizon interactive agents, and GTPO to provide an effective online RL recipe for robust long-horizon training.
- Abstract(参考訳): LLMベースのエージェントがますます複雑な実世界の環境にデプロイされるにつれて、既存のベンチマークは、グローバルな制約の強化、マルチツール推論の調整、長期にわたるマルチターンインタラクションによるユーザの振る舞いの進化への適応といった重要な課題を浮き彫りにしている。
このギャップを埋めるために、現実的な旅行計画シナリオを基礎とした長軸ベンチマークである \textbf{TRIP-Bench} を導入する。
TRIP-Benchは現実世界のデータを活用し、18のキュレーションされたツールと40以上の旅行要件を提供し、自動評価をサポートする。
ハード分割は、長くあいまいな相互作用、スタイルシフト、実現可能性の変化、反復的なバージョン修正を強調します。
対話は最大15のユーザー・ターンにまたがり、150以上のツール・コールを伴い、コンテキストのトークンが200万を超えている可能性がある。
実験によると、高度なモデルでさえ、簡単な分割で少なくとも50%成功し、ハードサブセットでパフォーマンスが10倍以下低下している。
さらに,報奨正規化と報奨差分を特化したオンライン多ターン強化学習法である「textbf{GTPO}」を提案する。
Qwen2.5-32B-Instructに応用し、GTPOは制約満足度と相互作用堅牢性を改善し、Gemini-3-Proよりも優れた性能を示した。
我々は、TRIP-Benchが実用的な長距離対話エージェントを推進し、GTPOが堅牢な長距離訓練のための効果的なオンラインRLレシピを提供することを期待している。
関連論文リスト
- TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning [22.3041021610283]
旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
TravelBenchは、完全な現実世界の旅行計画のベンチマークである。
論文 参考訳(メタデータ) (2025-12-27T18:25:14Z) - Multi-Agent Craftax: Benchmarking Open-Ended Multi-Agent Reinforcement Learning at the Hyperscale [53.08403177911567]
textitCraftax-MAは、人気のあるオープンエンドRL環境であるCraftaxの拡張である。
textitCraftax-Coopは異質なエージェント、トレーディング、さらに多くのメカニクスを導入し、エージェント間の複雑な協力を必要としている。
論文 参考訳(メタデータ) (2025-11-07T01:09:36Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep
Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文 参考訳(メタデータ) (2023-06-28T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。