論文の概要: OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions
- arxiv url: http://arxiv.org/abs/2602.05843v1
- Date: Thu, 05 Feb 2026 16:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.038955
- Title: OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions
- Title(参考訳): OdysseyArena: 長期、アクティブ、インダクティブインタラクションのための大規模言語モデルのベンチマーク
- Authors: Fangzhi Xu, Hang Yan, Qiushi Sun, Jinyang Wu, Zixian Huang, Muye Huang, Jingyang Gong, Zichen Ding, Kanzhi Cheng, Yian Wang, Xinyu Che, Zeyi Sun, Jian Zhang, Zhangyue Yin, Haoran Luo, Xuanjing Huang, Ben Kao, Jun Liu, Qika Lin,
- Abstract要約: 我々はOdysseyArenaを紹介した。OdysseyArenaは、長期的、活動的、誘導的相互作用におけるエージェント評価を再中心化する。
エージェントの誘導効率と長期発見を測る120のタスクセットを提供する。
また,OdysseyArena-Challengeを極端相互作用地平線上での応力-試験剤の安定性について紹介する。
- 参考スコア(独自算出の注目度): 66.84396313837765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has catalyzed the development of autonomous agents capable of navigating complex environments. However, existing evaluations primarily adopt a deductive paradigm, where agents execute tasks based on explicitly provided rules and static goals, often within limited planning horizons. Crucially, this neglects the inductive necessity for agents to discover latent transition laws from experience autonomously, which is the cornerstone for enabling agentic foresight and sustaining strategic coherence. To bridge this gap, we introduce OdysseyArena, which re-centers agent evaluation on long-horizon, active, and inductive interactions. We formalize and instantiate four primitives, translating abstract transition dynamics into concrete interactive environments. Building upon this, we establish OdysseyArena-Lite for standardized benchmarking, providing a set of 120 tasks to measure an agent's inductive efficiency and long-horizon discovery. Pushing further, we introduce OdysseyArena-Challenge to stress-test agent stability across extreme interaction horizons (e.g., > 200 steps). Extensive experiments on 15+ leading LLMs reveal that even frontier models exhibit a deficiency in inductive scenarios, identifying a critical bottleneck in the pursuit of autonomous discovery in complex environments. Our code and data are available at https://github.com/xufangzhi/Odyssey-Arena
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、複雑な環境をナビゲートできる自律エージェントの開発を触媒にしている。
しかし、既存の評価は主に演能的なパラダイムを採用しており、エージェントは明示されたルールと静的な目標に基づいてタスクを実行する。
重要なことは、エージェントが潜伏遷移法を自律的に発見するインダクティブな必要性を無視することであり、これはエージェントの監視と戦略的一貫性を維持するための基盤となる。
このギャップを埋めるために、我々はOdysseyArenaを紹介します。
我々は4つのプリミティブを形式化し、インスタンス化し、抽象的な遷移ダイナミクスを具体的な対話環境に翻訳する。
そこで我々は,標準ベンチマークのためのOdysseyArena-Liteを構築し,エージェントの帰納的効率と長期発見を測る120のタスクセットを提供する。
さらに、OdysseyArena-Challengeを極端相互作用地平線(例: > 200 ステップ)の応力-試験剤の安定性に導入する。
15以上のLLMの大規模な実験により、フロンティアモデルでさえ誘導的シナリオに欠けており、複雑な環境で自律的な発見を追求する上で重要なボトルネックが特定されていることが明らかになった。
私たちのコードとデータはhttps://github.com/xufangzhi/Odyssey-Arenaで公開されています。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文 参考訳(メタデータ) (2026-01-15T13:52:04Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows [10.318744035680398]
大規模言語モデル(LLM)は、複雑で長期の推論を必要とする現実世界のアプリケーションにますます多くデプロイされている。
OdysseyBenchは、様々なオフィスアプリケーションにわたる長期にわたってLLMエージェントを評価するための包括的なベンチマークである。
スケーラブルなベンチマーク作成を実現するために,長期ワークフローベンチマークの自動生成を行うマルチエージェントフレームワークであるHomerAgentsを提案する。
論文 参考訳(メタデータ) (2025-08-12T17:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。