論文の概要: Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2403.00816v3
- Date: Wed, 14 Aug 2024 07:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 18:06:42.104580
- Title: Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning
- Title(参考訳): Read and Think: 文書理解と推論のためのステップワイド多モーダル言語モデル
- Authors: Jinxu Zhang,
- Abstract要約: 既存の文書理解モデルは、1つの単語やフレーズで直接答えを生成する傾向がある。
文書画像の段階的問合せ対を生成するためにMLLM(Multi-modal Large Language Models)を用いる。
次に、生成された高品質なデータを使用して、DocAssistantと呼ばれる、人間化された文書理解と推論モデルをトレーニングします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the contents of multimodal documents is essential to accurately extract relevant evidence and use it for reasoning. Existing document understanding models tend to generate answers with a single word or phrase directly, ignoring the source document's evidence and lacking interpretability. In this work, we address the lack of step-wise capabilities through data augmentation and extension. Specifically, We use Multi-modal Large Language Models (MLLMs), which have strong visual understanding and reasoning abilities, as data generators to generate step-wise question-and-answer pairs for document images and use a high-performance LLM as the error detector to filter out noisy data. This step-wise data generation pipeline is implemented using both template-based and few-shot methods. We then use the generated high-quality data to train a humanized document understanding and reasoning model, specifically designed to solve complex questions that require reasoning or multi-hop question answering, dubbed DocAssistant. Experimental results demonstrate the effectiveness and application value of step-wise generation, showing a 5 improvement on InfoVQA with complex layouts and a 7 improvement on ChartQA with complex reasoning, compared to directly generated answers. We hope our work highlights the potential of synthetic data and encourages further exploration of multi-modal document reasoning capabilities.
- Abstract(参考訳): マルチモーダル文書の内容を理解することは、関連する証拠を正確に抽出し、推論に利用する上で不可欠である。
既存の文書理解モデルは、1つの単語やフレーズで直接回答を生成する傾向があり、ソース文書の証拠を無視し、解釈性に欠ける。
本研究では、データ拡張と拡張によるステップワイズ機能の欠如に対処する。
具体的には,マルチモーダル大言語モデル(MLLM)を用いて,文書画像の段階的問合せペアを生成するデータジェネレータとして,ノイズを除去するエラー検出器として高性能LLMを用いる。
このステップワイズなデータ生成パイプラインはテンプレートベースと少数ショットメソッドの両方を使って実装されている。
次に、生成した高品質なデータを使用して、人間化された文書理解と推論モデルをトレーニングし、特にDocAssistantと呼ばれる、推論やマルチホップの質問応答を必要とする複雑な質問を解決するように設計されています。
実験の結果、ステップワイズ生成の有効性と応用価値が示され、複雑なレイアウトでInfoVQAが5改善、複雑な推論でChartQAが7改善された。
我々は、合成データの可能性を強調し、マルチモーダルな文書推論機能をさらに探求することを願っている。
関連論文リスト
- Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - Enhancing BERT-Based Visual Question Answering through Keyword-Driven
Sentence Selection [8.586466827855016]
文書ベースのVisual Question Answeringコンペティションは、文書内の親子関係の自動検出に対処する。
本稿では,この課題に対処する PoliTo のアプローチについて述べる。
このアプローチの有効性により、ベースラインよりも高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-10-13T22:43:55Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - Answering Any-hop Open-domain Questions with Iterative Document
Reranking [62.76025579681472]
オープンドメインの問に答える統合QAフレームワークを提案する。
提案手法は,シングルホップおよびマルチホップのオープンドメインQAデータセットにおいて,最先端技術に匹敵する性能を継続的に達成する。
論文 参考訳(メタデータ) (2020-09-16T04:31:38Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。