論文の概要: DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding
- arxiv url: http://arxiv.org/abs/2508.08589v1
- Date: Tue, 12 Aug 2025 03:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.281769
- Title: DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding
- Title(参考訳): DocThinker: ドキュメント理解のためのルールベース強化学習による説明可能なマルチモーダル大言語モデル
- Authors: Wenwen Yu, Zhibo Yang, Yuliang Liu, Xiang Bai,
- Abstract要約: 動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
- 参考スコア(独自算出の注目度): 66.07724324530844
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in document understanding. However, their reasoning processes remain largely black-box, making it difficult to ensure reliability and trustworthiness, especially in high-stakes domains such as legal, financial, and medical document analysis. Existing methods use fixed Chain-of-Thought (CoT) reasoning with supervised fine-tuning (SFT) but suffer from catastrophic forgetting, poor adaptability, and limited generalization across domain tasks. In this paper, we propose DocThinker, a rule-based Reinforcement Learning (RL) framework for dynamic inference-time reasoning. Instead of relying on static CoT templates, DocThinker autonomously refines reasoning strategies via policy learning, generating explainable intermediate results, including structured reasoning processes, rephrased questions, regions of interest (RoI) supporting the answer, and the final answer. By integrating multi-objective rule-based rewards and KL-constrained optimization, our method mitigates catastrophic forgetting and enhances both adaptability and transparency. Extensive experiments on multiple benchmarks demonstrate that DocThinker significantly improves generalization while producing more explainable and human-understandable reasoning steps. Our findings highlight RL as a powerful alternative for enhancing explainability and adaptability in MLLM-based document understanding. Code will be available at https://github.com/wenwenyu/DocThinker.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は文書理解において顕著な能力を示す。
しかし、彼らの推論プロセスはブラックボックスのままであり、特に法的、財政的、医療文書分析のような高度な領域において信頼性と信頼性を確保することは困難である。
既存の手法では、教師付き微調整(SFT)を用いた固定されたチェーン・オブ・ソート(CoT)推論を用いるが、破滅的な忘れ込み、適応性の低下、ドメインタスク間の限定的な一般化に悩まされている。
本稿では,動的推論時間推論のためのルールベース強化学習(RL)フレームワークであるDocThinkerを提案する。
静的なCoTテンプレートに頼る代わりに、DocThinkerはポリシー学習を通じて推論戦略を自律的に洗練し、構造化された推論プロセス、リフレーズされた質問、回答をサポートする関心領域(RoI)、最終回答を含む説明可能な中間結果を生成する。
提案手法は,多目的ルールベース報酬とKL制約最適化を統合することにより,破滅的な忘れを軽減し,適応性と透明性を両立させる。
複数のベンチマークでの大規模な実験により、DocThinkerはより説明しやすく、人間に理解しやすい推論ステップを生み出しながら、一般化を著しく改善することが示された。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
コードはhttps://github.com/wenwenyu/DocThinker.comから入手できる。
関連論文リスト
- PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Layered Chain-of-Thought Prompting for Multi-Agent LLM Systems: A Comprehensive Approach to Explainable Large Language Models [0.0]
提案するLayered Chain-of-Thought (Layered-CoT) Promptingは,推論プロセスを複数の層に体系的に分割する新しいフレームワークである。
医療トリアージ、財務リスク評価、アジャイルエンジニアリングの3つのシナリオを紹介し、透明性、正確性、ユーザエンゲージメントの観点から、Layered-CoTがバニラCoTをどのように上回っているかを示します。
論文 参考訳(メタデータ) (2025-01-29T13:21:09Z) - Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context [31.091013417498825]
文脈反復(CoRe)という,シンプルで効果的な手法を提案する。
これにより、サポートドキュメント内の連続した推論セグメントが最適な順序で提示されることが保証される。
CoReを用いて,マルチホップQAタスクのF1スコアを最大30%改善し,合成タスクの精度を最大70%向上する。
論文 参考訳(メタデータ) (2024-10-09T17:41:53Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。