論文の概要: CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2403.00816v1
- Date: Mon, 26 Feb 2024 01:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-10 23:48:07.302807
- Title: CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering
- Title(参考訳): CFRet-DVQA:ドキュメントビジュアル質問応答のための粗大な検索と効率的なチューニング
- Authors: Jinxu Zhang, Yongqi Yu, Yu Zhang
- Abstract要約: Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやり取りを容易にすることはない。
本稿では,CFRet-DVQAについて紹介する。
- 参考スコア(独自算出の注目度): 3.8065968624597324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Visual Question Answering (DVQA) is a task that involves responding
to queries based on the content of images. Existing work is limited to locating
information within a single page and does not facilitate cross-page
question-and-answer interaction. Furthermore, the token length limitation
imposed on inputs to the model may lead to truncation of segments pertinent to
the answer. In this study, we introduce a simple but effective methodology
called CFRet-DVQA, which focuses on retrieval and efficient tuning to address
this critical issue effectively. For that, we initially retrieve multiple
segments from the document that correlate with the question at hand.
Subsequently, we leverage the advanced reasoning abilities of the large
language model (LLM), further augmenting its performance through instruction
tuning. This approach enables the generation of answers that align with the
style of the document labels. The experiments demonstrate that our methodology
achieved state-of-the-art or competitive results with both single-page and
multi-page documents in various fields.
- Abstract(参考訳): Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやりとりが容易ではない。
さらに、モデルへの入力に課されるトークン長の制限は、応答に関連するセグメントの切断につながる可能性がある。
本研究では,CFRet-DVQAと呼ばれる簡易かつ効果的な手法を提案する。
そのため、まず、目の前の質問に関連付けられたドキュメントから複数のセグメントを取得します。
その後、大規模言語モデル(LLM)の高度な推論能力を活用し、命令チューニングによりその性能をさらに向上する。
このアプローチにより、ドキュメントラベルのスタイルに合わせて回答を生成することができる。
実験により,本手法は各分野の単一ページおよび複数ページの文書を用いて,最先端ないし競争的な結果を得た。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models [32.598670876662375]
Retrieval-augmented large language model (LLMs) は、情報検索システムによって取得された関連コンテンツを利用して正しい応答を生成する。
既存のレトリバー・サプライヤ・メソッドは、テキスト生成タスクを実行するために LLM のプロンプトに関連文書を追加するのが一般的である。
検索拡張LDMのための文書順序付けを学習するための新しいパイプライン"Reinforced Retriever-Reorder-Responder"を提案する。
論文 参考訳(メタデータ) (2024-05-04T12:59:10Z) - EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset [20.445453185198186]
本稿では,データ収集における人的・資源的負担を軽減するため,MDCF(Multimodal Data Construction Framework)を提案する。
MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供する。
実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。
論文 参考訳(メタデータ) (2023-10-17T03:28:29Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。