論文の概要: Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2403.00816v2
- Date: Wed, 7 Aug 2024 22:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:38:04.099513
- Title: Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning
- Title(参考訳): Read and Think: 文書理解と推論のためのステップワイド多モーダル言語モデル
- Authors: Jinxu Zhang,
- Abstract要約: 既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the contents of multimodal documents is essential to accurately extract relevant evidence and use it for reasoning. Existing document understanding models tend to generate answers with a single word or phrase directly, ignoring the source document's evidence and lacking interpretability. In this work, we address the lack of step-wise capabilities through data augmentation and extension. Specifically, We use Multi-modal Large Language Models (MLLMs), which have strong visual understanding and reasoning abilities, as data generators to generate step-wise question-and-answer pairs for document images and use a high-performance LLM as the error detector to filter out noisy data. This step-wise data generation pipeline is implemented using both template-based and few-shot methods. We then use the generated high-quality data to train a humanized document understanding and reasoning model, specifically designed to solve complex questions that require reasoning or multi-hop question answering, dubbed DocAssistant. Experimental results demonstrate the effectiveness and application value of step-wise generation, showing a 5 improvement on InfoVQA with complex layouts and a 7 improvement on ChartQA with complex reasoning, compared to directly generated answers. We hope our work highlights the potential of synthetic data and encourages further exploration of multi-modal document reasoning capabilities.
- Abstract(参考訳): マルチモーダル文書の内容を理解することは、関連する証拠を正確に抽出し、推論に利用する上で不可欠である。
既存の文書理解モデルは、1つの単語やフレーズで直接回答を生成する傾向があり、ソース文書の証拠を無視し、解釈性に欠ける。
本研究では、データ拡張と拡張によるステップワイズ機能の欠如に対処する。
具体的には,マルチモーダル大言語モデル(MLLM)を用いて,文書画像の段階的問合せペアを生成するデータジェネレータとして,ノイズを除去するエラー検出器として高性能LLMを用いる。
このステップワイズなデータ生成パイプラインはテンプレートベースと少数ショットメソッドの両方を使って実装されている。
次に、生成した高品質なデータを使用して、人間化された文書理解と推論モデルをトレーニングし、特にDocAssistantと呼ばれる、推論やマルチホップの質問応答を必要とする複雑な質問を解決するように設計されています。
実験の結果、ステップワイズ生成の有効性と応用価値が示され、複雑なレイアウトでInfoVQAが5改善、複雑な推論でChartQAが7改善された。
我々は、合成データの可能性を強調し、マルチモーダルな文書推論機能をさらに探求することを願っている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models [32.598670876662375]
Retrieval-augmented large language model (LLMs) は、情報検索システムによって取得された関連コンテンツを利用して正しい応答を生成する。
既存のレトリバー・サプライヤ・メソッドは、テキスト生成タスクを実行するために LLM のプロンプトに関連文書を追加するのが一般的である。
検索拡張LDMのための文書順序付けを学習するための新しいパイプライン"Reinforced Retriever-Reorder-Responder"を提案する。
論文 参考訳(メタデータ) (2024-05-04T12:59:10Z) - EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset [20.445453185198186]
本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。
MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。
実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
論文 参考訳(メタデータ) (2023-10-17T03:28:29Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。