論文の概要: AgentOCR: Reimagining Agent History via Optical Self-Compression
- arxiv url: http://arxiv.org/abs/2601.04786v1
- Date: Thu, 08 Jan 2026 10:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.150058
- Title: AgentOCR: Reimagining Agent History via Optical Self-Compression
- Title(参考訳): AgentOCR:光自己圧縮によるエージェント履歴の再構築
- Authors: Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An,
- Abstract要約: 本稿では,視覚トークンの優れた情報密度を利用するフレームワークであるAgentOCRを紹介する。
履歴をハッシュ可能なセグメントに分解し、ビジュアルキャッシュを維持することで、AgentOCRは冗長な再レンダリングを取り除く。
以上の結果から,AgentOCRは95%以上のテキストベースのエージェント性能を保ちながら,トークン消費量を大幅に削減していることがわかった。
- 参考スコア(独自算出の注目度): 25.87457777208574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) enable agentic systems trained with reinforcement learning (RL) over multi-turn interaction trajectories, but practical deployment is bottlenecked by rapidly growing textual histories that inflate token budgets and memory usage. We introduce AgentOCR, a framework that exploits the superior information density of visual tokens by representing the accumulated observation-action history as a compact rendered image. To make multi-turn rollouts scalable, AgentOCR proposes segment optical caching. By decomposing history into hashable segments and maintaining a visual cache, this mechanism eliminates redundant re-rendering. Beyond fixed rendering, AgentOCR introduces agentic self-compression, where the agent actively emits a compression rate and is trained with compression-aware reward to adaptively balance task success and token efficiency. We conduct extensive experiments on challenging agentic benchmarks, ALFWorld and search-based QA. Remarkably, results demonstrate that AgentOCR preserves over 95\% of text-based agent performance while substantially reducing token consumption (>50\%), yielding consistent token and memory efficiency. Our further analysis validates a 20x rendering speedup from segment optical caching and the effective strategic balancing of self-compression.
- Abstract(参考訳): 大規模言語モデル (LLM) の最近の進歩により, マルチターン相互作用軌跡よりも強化学習 (RL) で訓練されたエージェントシステムが実現されているが, トークン予算とメモリ使用量を増大させるテキスト履歴によって, 現実的な展開がボトルネックとなる。
本稿では,蓄積した観測行動履歴をコンパクトな描画画像として表現することにより,視覚トークンの優れた情報密度を利用するフレームワークであるAgentOCRを紹介する。
マルチターンロールアウトをスケーラブルにするために、AgentOCRはセグメント光キャッシングを提案する。
履歴をハッシュ可能なセグメントに分解し、ビジュアルキャッシュを維持することで、このメカニズムは冗長な再レンダリングを排除する。
固定レンダリング以外にも、AgentOCRはエージェントによる自己圧縮を導入し、エージェントは積極的に圧縮率を出力し、タスクの成功とトークン効率を適応的にバランスさせる圧縮対応報酬をトレーニングする。
エージェントベンチマーク、ALFWorld、検索ベースのQAについて広範な実験を行った。
興味深いことに、AgentOCRは95%以上のテキストベースのエージェント性能を保ちつつ、トークン消費を著しく削減し(>50\%)、一貫したトークンとメモリ効率を実現している。
さらに,セグメント光キャッシングによる20倍のレンダリング高速化と,自己圧縮の効果的な戦略的バランスを検証した。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - Cache Mechanism for Agent RAG Systems [32.587302983158274]
ARC(Agent RAG Cache Mechanism)は、各エージェントの小さな高価値コーパスを動的に管理する、新しい、アノテーションのないキャッシュフレームワークである。
その結果, ARC はRAG を用いた LLM エージェントの効率と有効性を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-11-04T19:02:29Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。