論文の概要: InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents
- arxiv url: http://arxiv.org/abs/2601.03204v1
- Date: Tue, 06 Jan 2026 17:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.046096
- Title: InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents
- Title(参考訳): InfiAgent: 汎用自律エージェントのための無限水平フレームワーク
- Authors: Chenglin Yu, Yuchen Wang, Songmiao Wang, Hongxia Yang, Ming Li,
- Abstract要約: InfiAgentは、タスクの持続時間に関係なく、エージェントの推論コンテキストを厳密に拘束する。
20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合する。
- 参考スコア(独自算出の注目度): 36.740230738304525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents can reason and use tools, but they often break down on long-horizon tasks due to unbounded context growth and accumulated errors. Common remedies such as context compression or retrieval-augmented prompting introduce trade-offs between information fidelity and reasoning stability. We present InfiAgent, a general-purpose framework that keeps the agent's reasoning context strictly bounded regardless of task duration by externalizing persistent state into a file-centric state abstraction. At each step, the agent reconstructs context from a workspace state snapshot plus a fixed window of recent actions. Experiments on DeepResearch and an 80-paper literature review task show that, without task-specific fine-tuning, InfiAgent with a 20B open-source model is competitive with larger proprietary systems and maintains substantially higher long-horizon coverage than context-centric baselines. These results support explicit state externalization as a practical foundation for stable long-horizon agents. Github Repo:https://github.com/ChenglinPoly/infiAgent
- Abstract(参考訳): LLMエージェントは、ツールを推論および使用することができるが、境界のないコンテキストの成長と累積エラーのために、長い水平タスクを分解することが多い。
文脈圧縮や検索強化などの一般的な対策は、情報忠実度と推論安定性のトレードオフをもたらす。
InfiAgentは、永続的な状態をファイル中心の状態抽象化に外部化することで、タスクの持続時間に関係なくエージェントの推論コンテキストを厳格に拘束する汎用フレームワークである。
各ステップで、エージェントはワークスペース状態スナップショットと最近のアクションの固定ウィンドウからコンテキストを再構築する。
DeepResearchと80ページの文献レビュータスクの実験によると、タスク固有の微調整がなければ、20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合し、コンテキスト中心のベースラインよりもはるかに高い長期カバレッジを維持している。
これらの結果は、安定な長距離エージェントの実用的な基礎として、明示的な状態の外部化を支持する。
Github Repo:https://github.com/ChenglinPoly/infiAgent
関連論文リスト
- CaveAgent: Transforming LLMs into Stateful Runtime Operators [31.548422546991915]
CaveAgentは"LLM-as-Text-Generator"から"LLM-as-as-Runtime"にパラダイムを変換するフレームワークです。
CaveAgentは小売業のタスクで10.5%の成功率の向上を実現し、マルチターンシナリオではトークン総消費を28.4%削減している。
論文 参考訳(メタデータ) (2026-01-04T15:32:47Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management [24.465443389008055]
AgentProgはエージェントコンテキスト管理のためのプログラム誘導型アプローチである。
インタラクション履歴を変数と制御フローを備えたプログラムとして再構成する。
AndroidWorldと拡張ロングホライゾンタスクスイートの実験では、AgentProgが最先端の成功率を達成したことが示されています。
論文 参考訳(メタデータ) (2025-12-11T07:37:38Z) - AgentFold: Long-Horizon Web Agents with Proactive Context Management [98.54523771369018]
LLM ベースの Web エージェントは情報検索を大いに約束するが,その有効性はコンテキスト管理における基本的なトレードオフによって妨げられる。
本稿では,プロアクティブなコンテキスト管理を中心としたエージェントパラダイムであるAgentFoldを紹介する。
単純な微調整により,BrowseCompでは36.2%,BrowseComp-ZHでは47.3%を達成した。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。