論文の概要: ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents
- arxiv url: http://arxiv.org/abs/2510.25668v1
- Date: Wed, 29 Oct 2025 16:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.802102
- Title: ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents
- Title(参考訳): ALDEN:長期文書におけるアクティブナビゲーションとエビデンス収集のための強化学習
- Authors: Tianyu Yang, Terry Ruas, Yijun Tian, Jan Philip Wahle, Daniel Kurzawe, Bela Gipp,
- Abstract要約: 視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、長い、視覚的に複雑な文書に苦しむ。
対話型エージェントとしてVLMを微調整する多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation (ALDEN)を提案する。
- 参考スコア(独自算出の注目度): 17.497004687630742
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models (VLMs) excel at interpreting text-rich images but struggle with long, visually complex documents that demand analysis and integration of information spread across multiple pages. Existing approaches typically rely on fixed reasoning templates or rigid pipelines, which force VLMs into a passive role and hinder both efficiency and generalization. We present Active Long-DocumEnt Navigation (ALDEN), a multi-turn reinforcement learning framework that fine-tunes VLMs as interactive agents capable of actively navigating long, visually rich documents. ALDEN introduces a novel fetch action that directly accesses the page by index, complementing the classic search action and better exploiting document structure. For dense process supervision and efficient training, we propose a rule-based cross-level reward that provides both turn- and token-level signals. To address the empirically observed training instability caused by numerous visual tokens from long documents, we further propose a visual-semantic anchoring mechanism that applies a dual-path KL-divergence constraint to stabilize visual and textual representations separately during training. Trained on a corpus constructed from three open-source datasets, ALDEN achieves state-of-the-art performance on five long-document benchmarks. Overall, ALDEN marks a step beyond passive document reading toward agents that autonomously navigate and reason across long, visually rich documents, offering a robust path to more accurate and efficient long-document understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、複数のページにまたがる解析や情報の統合を要求される、長く、視覚的に複雑な文書に苦しむ。
既存のアプローチは通常、固定された推論テンプレートや剛性パイプラインに依存しており、VLMを受動的な役割に追い込み、効率性と一般化を妨げている。
本稿では,多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation(ALDEN)について紹介する。
ALDENは、インデックスによってページに直接アクセスする新しいフェッチアクションを導入し、古典的な検索アクションを補完し、ドキュメント構造をよりよく活用する。
プロセスの監督と効率的なトレーニングのために,ターンレベルの信号とトークンレベルの信号の両方を提供するルールベースのクロスレベル報酬を提案する。
長い文書から多数の視覚トークンが引き起こされる経験的に観察されたトレーニング不安定性に対処するために、トレーニング中に視覚的およびテキスト的表現を個別に安定化させるために、デュアルパスKL分割制約を適用した視覚的意味的アンカー機構を提案する。
3つのオープンソースデータセットから構築されたコーパスでトレーニングされたALDENは、5つの長期ドキュメントベンチマークで最先端のパフォーマンスを達成する。
全体として、ALDENは、より正確で効率的な長期文書理解のための堅牢な道筋を提供する、長く視覚的に豊かな文書を自律的にナビゲートし、推論するエージェントに向けた受動的文書読解の一歩を踏み出した。
関連論文リスト
- SCoPE VLM: Selective Context Processing for Efficient Document Navigation in Vision-Language Models [0.0]
長いコンテキストの視覚情報を理解することは、視覚言語モデルの根本的な課題である。
本稿では,新しいChain of Scroll機構を利用した文書ナビゲーションエキスパートであるSCoPE VLMを提案する。
SCoPE VLMは、多ページ文書質問応答においてエージェント読み取りパターンを明示的にモデル化する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-10-22T17:47:12Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - ColPali: Efficient Document Retrieval with Vision Language Models [15.369861972085136]
我々は、複数のドメイン、言語、実用的な設定にまたがる様々なページレベルの検索タスクからなるVisual Document Retrieval Benchmark ViDoReを紹介する。
現代のシステムの本質的な複雑さと性能上の欠点は、ドキュメントページのイメージを直接埋め込むことで文書検索を行うという新しい概念を動機付けている。
文書ページの画像から高品質なマルチベクトル埋め込みを生成するために訓練されたビジョン言語モデルColPaliをリリースする。
論文 参考訳(メタデータ) (2024-06-27T15:45:29Z) - Focus Anywhere for Fine-grained Multi-page Document Understanding [24.76897786595502]
本稿では,LVLMを単ページ/複数ページの文書に注目する上で,効果的パイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。
我々は、複数の視覚語彙を用いて、インターリーブされた文書ページの視覚的ハイブリッド知識を抽出する。
我々は、複数の視覚語彙と文書内図形理解の完全な反応を達成するために、複数の語彙間の視覚データを前景として描画する。
論文 参考訳(メタデータ) (2024-05-23T08:15:49Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [88.88844606781987]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。