論文の概要: SCoPE VLM: Selective Context Processing for Efficient Document Navigation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.21850v1
- Date: Wed, 22 Oct 2025 17:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.616268
- Title: SCoPE VLM: Selective Context Processing for Efficient Document Navigation in Vision-Language Models
- Title(参考訳): SCoPE VLM:視覚言語モデルにおける効率的な文書ナビゲーションのための選択文脈処理
- Authors: Gyubeum Lim, Yemo Koo, Vijay Krishna Madisetti,
- Abstract要約: 長いコンテキストの視覚情報を理解することは、視覚言語モデルの根本的な課題である。
本稿では,新しいChain of Scroll機構を利用した文書ナビゲーションエキスパートであるSCoPE VLMを提案する。
SCoPE VLMは、多ページ文書質問応答においてエージェント読み取りパターンを明示的にモデル化する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding long-context visual information remains a fundamental challenge for vision-language models, particularly in agentic tasks such as GUI control and web navigation. While web pages and GUI environments are inherently structured documents, current VLMs typically neglect decision-oriented document understanding in their training objectives. Existing approaches primarily extend visual embeddings to process long, high-resolution inputs, but these methods are memory-intensive and impractical for locally deployable solutions. To address these issues, we propose SCoPE VLM, a document navigation expert that leverages a novel Chain of Scroll mechanism to selectively and recursively navigate documents, focusing exclusively on relevant segments. We introduce a dedicated data generation pipeline to construct informative Chain of Scroll trajectories and Episodic Group Relative Policy Optimization, a tailored reinforcement learning method to reduce the gap between training and inference. Our method substantially reduces memory usage and effectively models human-like reading behaviors. To the best of our knowledge, SCoPE VLM is the first framework to explicitly model agentic reading patterns in multi-page document question answering, advancing the capabilities of multimodal agents.
- Abstract(参考訳): 長いコンテキストの視覚情報を理解することは、特にGUI制御やWebナビゲーションのようなエージェントタスクにおいて、視覚言語モデルにとって根本的な課題である。
ウェブページとGUI環境は本質的に構造化ドキュメントであるが、現在のVLMは訓練目的における意思決定指向の文書理解を無視する。
既存のアプローチは主に視覚埋め込みを拡張して、長い高解像度入力を処理するが、これらの手法はメモリ集約的で、ローカルにデプロイ可能なソリューションでは実用的ではない。
これらの問題に対処するために,新しいChain of Scroll機構を利用して文書を選択的かつ再帰的にナビゲートする文書ナビゲーションエキスパートであるSCoPE VLMを提案する。
本稿では,学習と推論のギャップを減らし,情報伝達の連鎖を構築するための専用データ生成パイプラインと,トレーニングと推論のギャップを軽減するための強化学習手法であるエピソードグループ相対的ポリシー最適化を導入する。
本手法は, メモリ使用量を大幅に削減し, ヒューマンライクな読み動作を効果的にモデル化する。
我々の知る限り、SCoPE VLMは、マルチページ文書質問応答におけるエージェント読み取りパターンを明示的にモデル化し、マルチモーダルエージェントの能力を向上する最初のフレームワークである。
関連論文リスト
- Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。