論文の概要: Evaluating Long-Context Reasoning in LLM-Based WebAgents
- arxiv url: http://arxiv.org/abs/2512.04307v1
- Date: Wed, 03 Dec 2025 22:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.911198
- Title: Evaluating Long-Context Reasoning in LLM-Based WebAgents
- Title(参考訳): LLMに基づくWebAgentにおけるロングコンテキスト推論の評価
- Authors: Andy Chung, Yichi Zhang, Kaixiang Lin, Aditya Rawal, Qiaozi Gao, Joyce Chai,
- Abstract要約: 本稿では,WebAgentsの長期コンテキスト推論能力を評価するためのベンチマークを紹介する。
コンテクストの長さが増加するにつれて劇的なパフォーマンス劣化が観察され、成功率はベースライン条件では40-50%から長期シナリオでは10%以下に低下する。
我々の詳細なエラー分析では、エージェントがループで立ち往生し、元のタスクの目的の追跡が失われることが主な原因であることが判明した。
- 参考スコア(独自算出の注目度): 22.264781808930948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language model (LLM)-based agents become increasingly integrated into daily digital interactions, their ability to reason across long interaction histories becomes crucial for providing personalized and contextually aware assistance. However, the performance of these agents in long context scenarios, particularly for action-taking WebAgents operating in realistic web environments, remains largely unexplored. This paper introduces a benchmark for evaluating long context reasoning capabilities of WebAgents through sequentially dependent subtasks that require retrieval and application of information from extended interaction histories. We develop a novel evaluation framework that simulates multi-session user interactions by injecting irrelevant task trajectories between dependent subtasks, creating contexts ranging from 25,000 to 150,000 tokens. Through extensive evaluation of four popular models, Claude-3.7, GPT-4.1, Llama 4, and o4-mini, we observe a dramatic performance degradation as context length increases, with success rates dropping from 40-50\% in baseline conditions to less than 10\% in long context scenarios. Our detailed error analysis reveals that agents primarily fail due to getting stuck in loops and losing track of original task objectives. We further propose an implicit RAG approach that provides modest improvements by generating task-relevant summaries, though fundamental limitations in long context reasoning persist. These findings highlight critical challenges for deploying WebAgents in realistic, long-term user interaction scenarios and provide insights for developing more robust agent architectures capable of maintaining coherent task execution across extended contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントが日々のデジタルインタラクションにますます統合されるにつれて、パーソナライズされ、文脈的に認識される支援を提供する上で、長いインタラクション履歴をまたいで推論する能力が重要になる。
しかし、これらのエージェントの長期のシナリオにおけるパフォーマンス、特に現実的なWeb環境で動作しているアクションテイクWebAgentは、まだ明らかにされていない。
本稿では,WebAgentsの長期コンテキスト推論能力を評価するためのベンチマークを提案する。
本研究では,依存サブタスク間で無関係なタスクトラジェクトリを注入することにより,マルチセッションユーザインタラクションをシミュレートする新しい評価フレームワークを開発した。
Claude-3.7, GPT-4.1, Llama 4, o4-miniの4つの人気モデルの広範な評価を通じて、コンテキスト長が増加するにつれて劇的な性能劣化が観察され、成功率はベースライン条件では40-50%から10-%以下に低下する。
我々の詳細なエラー分析では、エージェントがループで立ち往生し、元のタスクの目的の追跡が失われることが主な原因であることが判明した。
さらに,タスク関連サマリーを生成することで,暗黙的なRAGアプローチを提案する。
これらの発見は、WebAgentを現実的で長期的なユーザインタラクションシナリオにデプロイする上で、重要な課題を浮き彫りにし、拡張コンテキストを越えた一貫性のあるタスク実行を維持可能な、より堅牢なエージェントアーキテクチャを開発するための洞察を提供する。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - AgentFold: Long-Horizon Web Agents with Proactive Context Management [98.54523771369018]
LLM ベースの Web エージェントは情報検索を大いに約束するが,その有効性はコンテキスト管理における基本的なトレードオフによって妨げられる。
本稿では,プロアクティブなコンテキスト管理を中心としたエージェントパラダイムであるAgentFoldを紹介する。
単純な微調整により,BrowseCompでは36.2%,BrowseComp-ZHでは47.3%を達成した。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context [17.575806280348797]
小さなエラーはステップにまたがって複雑で、最先端のモデルでさえしばしばコヒーレンスを幻覚または失う。
本稿では,戦術的実行,戦略的監視,文脈的組織を3つの特殊コンポーネントに分離する軽量階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T20:14:26Z) - BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions [33.59162905707337]
大規模言語モデル(LLM)は、単一ターンのテキスト・ツー・タスクにおいて顕著な性能を示してきたが、現実のデータベースアプリケーションは、主にマルチターンインタラクションを必要とする。
既存のマルチターンベンチマークは、会話履歴を静的なコンテキストとして扱うか、読み取り専用操作に対する評価を制限することで不足する。
BIRD-INTERACTは,(1)知識ベース,メタデータファイル,機能駆動型ユーザシミュレータとデータベースを結合した総合的なインタラクション環境であり,モデルの解明,知識の検索,エラーからの回復を人間の監督なしに行うことができる。
論文 参考訳(メタデータ) (2025-10-06T19:31:47Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。