論文の概要: LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
- arxiv url: http://arxiv.org/abs/2602.07962v1
- Date: Sun, 08 Feb 2026 13:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.893095
- Title: LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
- Title(参考訳): LOCA-bench: 制御可能かつ極端なコンテキスト成長下での言語エージェントのベンチマーク
- Authors: Weihao Zeng, Yuzhen Huang, Junxian He,
- Abstract要約: 大規模言語モデル(LLM)は、長期の現実世界のタスクを実行する能力がますます高まっている。
文脈の量が増えるにつれて、その信頼性はしばしば悪化し、これは"context rot"と呼ばれる現象である。
- 参考スコア(独自算出の注目度): 32.1520194112537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench
- Abstract(参考訳): 大規模言語モデル(LLM)は、長期の現実世界のタスクを実行する能力がますます高まっている。
しかし、文脈の量が増加するにつれて、その信頼性はしばしば悪化し、"context rot"と呼ばれる現象が生じる。
既存のロングコンテキストベンチマークは主に、長いスニペットから情報を取得するモデルの能力を評価するシングルステップ設定に焦点を当てている。
しかし現実的なシナリオでは、LLMは環境を探索し、指示や計画に従い、有用な情報を抽出し、動的に成長する状況下で正しい行動を予測するエージェントとして働く必要がある。
このような設定で言語エージェントを評価するために、LOCA-bench(LOng-Context Agentsのベンチマーク)を導入する。
タスクプロンプトが与えられた後、LOCA-benchは環境状態の自動化されたスケーラブルな制御を利用してエージェントのコンテキスト長を調節する。
この設計により、LOCA-benchは、根底にあるタスクセマンティクスを固定しつつ、制御された方法で無限大に潜在的にコンテキスト長を拡張することができる。
LOCA-benchは、さまざまなコンテキスト管理戦略を含むモデルと足場の組み合わせとして、言語エージェントを評価する。
エージェントのパフォーマンスは、環境状態が複雑化するにつれて一般的に低下するが、高度なコンテキスト管理技術は、全体的な成功率を大幅に向上させることができる。
私たちはLOCA-benchをオープンソースとして公開し、長期コンテキストのエージェントシナリオでモデルと足場を評価するプラットフォームを提供しました。
関連論文リスト
- AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents [36.740230738304525]
InfiAgentは、タスクの持続時間に関係なく、エージェントの推論コンテキストを厳密に拘束する。
20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合する。
論文 参考訳(メタデータ) (2026-01-06T17:35:57Z) - Scaling Long-Horizon LLM Agent via Context-Folding [46.685552398338295]
エージェントが作業コンテキストを積極的に管理することを可能にするフレームワークであるContext-Foldingを紹介します。
エージェントは、サブトラックに手続き的に分岐してサブタスクを処理し、完了時に折り畳み、結果の簡潔な要約を保持しながら中間ステップを崩壊させる。
論文 参考訳(メタデータ) (2025-10-13T22:00:58Z) - Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management [19.980762483472354]
要約に基づくコンテキスト管理をトレーニングに導入する。
UnderlineSUmmarization 拡張 UnderlinePolicy UnderlineOptimization (textttSUPO) でこのフレームワークをインスタンス化する。
本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
論文 参考訳(メタデータ) (2025-10-08T07:29:22Z) - Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.829572148850563]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。
エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。
ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (2025-10-06T09:30:18Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。