論文の概要: CogDoc: Towards Unified thinking in Documents
- arxiv url: http://arxiv.org/abs/2512.12658v1
- Date: Sun, 14 Dec 2025 12:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.367623
- Title: CogDoc: Towards Unified thinking in Documents
- Title(参考訳): CogDoc: ドキュメントの統一思考を目指して
- Authors: Qixin Xu, Haozhe Wang, Che Liu, Fangzhen Lin, Wenhu Chen,
- Abstract要約: 本稿では,人間の認知過程を模倣する統一された粗大な思考枠組みを提案する: 情報ローカライゼーションのための低解像度の「Fast Reading」フェーズ,そして深い推論のための高解像度の「Focused Thinking」フェーズを提案する。
我々は、統合思考フレームワークの訓練後戦略を厳格に調査し、直接強化学習アプローチが監督微調整(SFT)でRLを上回ることを実証した。
具体的には、直接RLは、SFTで観察される「政治紛争」を避けている。
- 参考スコア(独自算出の注目度): 53.41571589733423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current document reasoning paradigms are constrained by a fundamental trade-off between scalability (processing long-context documents) and fidelity (capturing fine-grained, multimodal details). To bridge this gap, we propose CogDoc, a unified coarse-to-fine thinking framework that mimics human cognitive processes: a low-resolution "Fast Reading" phase for scalable information localization,followed by a high-resolution "Focused Thinking" phase for deep reasoning. We conduct a rigorous investigation into post-training strategies for the unified thinking framework, demonstrating that a Direct Reinforcement Learning (RL) approach outperforms RL with Supervised Fine-Tuning (SFT) initialization. Specifically, we find that direct RL avoids the "policy conflict" observed in SFT. Empirically, our 7B model achieves state-of-the-art performance within its parameter class, notably surpassing significantly larger proprietary models (e.g., GPT-4o) on challenging, visually rich document benchmarks.
- Abstract(参考訳): 現在の文書推論パラダイムは、スケーラビリティ(長いコンテキスト文書を処理する)と忠実さ(きめ細かなマルチモーダルな詳細をキャプチャする)の基本的なトレードオフによって制約されています。
このギャップを埋めるために,我々は,人間の認知過程を模倣する統一された粗大な思考フレームワークであるCogDocを提案する。
統合思考フレームワークの訓練後戦略について厳密な調査を行い、直接強化学習(RL)アプローチが監視ファインチューニング(SFT)初期化によりRLを上回っていることを示す。
具体的には、直接RLは、SFTで観察される「政治紛争」を避けている。
経験的に、我々の7Bモデルはパラメータクラス内での最先端のパフォーマンスを実現しており、特に、挑戦的で視覚的にリッチな文書ベンチマークにおいて、かなり大きなプロプライエタリモデル(例えば、GPT-4o)を上回っている。
関連論文リスト
- VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [23.00801828244201]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。