論文の概要: CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2403.00816v1
- Date: Mon, 26 Feb 2024 01:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-10 23:48:07.302807
- Title: CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document
Visual Question Answering
- Title(参考訳): CFRet-DVQA:ドキュメントビジュアル質問応答のための粗大な検索と効率的なチューニング
- Authors: Jinxu Zhang, Yongqi Yu, Yu Zhang
- Abstract要約: Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやり取りを容易にすることはない。
本稿では,CFRet-DVQAについて紹介する。
- 参考スコア(独自算出の注目度): 3.8065968624597324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Visual Question Answering (DVQA) is a task that involves responding
to queries based on the content of images. Existing work is limited to locating
information within a single page and does not facilitate cross-page
question-and-answer interaction. Furthermore, the token length limitation
imposed on inputs to the model may lead to truncation of segments pertinent to
the answer. In this study, we introduce a simple but effective methodology
called CFRet-DVQA, which focuses on retrieval and efficient tuning to address
this critical issue effectively. For that, we initially retrieve multiple
segments from the document that correlate with the question at hand.
Subsequently, we leverage the advanced reasoning abilities of the large
language model (LLM), further augmenting its performance through instruction
tuning. This approach enables the generation of answers that align with the
style of the document labels. The experiments demonstrate that our methodology
achieved state-of-the-art or competitive results with both single-page and
multi-page documents in various fields.
- Abstract(参考訳): Document Visual Question Answering (DVQA)は、画像の内容に基づいてクエリに応答するタスクである。
既存の作業は、単一のページ内で情報を見つけることに限定されており、ページ間の質問と回答のやりとりが容易ではない。
さらに、モデルへの入力に課されるトークン長の制限は、応答に関連するセグメントの切断につながる可能性がある。
本研究では,CFRet-DVQAと呼ばれる簡易かつ効果的な手法を提案する。
そのため、まず、目の前の質問に関連付けられたドキュメントから複数のセグメントを取得します。
その後、大規模言語モデル(LLM)の高度な推論能力を活用し、命令チューニングによりその性能をさらに向上する。
このアプローチにより、ドキュメントラベルのスタイルに合わせて回答を生成することができる。
実験により,本手法は各分野の単一ページおよび複数ページの文書を用いて,最先端ないし競争的な結果を得た。
関連論文リスト
- GRAM: Global Reasoning for Multi-Page VQA [15.543765325723658]
計算量の多い事前学習を必要とせずに,事前学習したシングルページモデルを複数ページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を削減するために、符号化されたシーケンス長を小さくする任意の圧縮ステージを導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - Enhancing BERT-Based Visual Question Answering through Keyword-Driven
Sentence Selection [8.586466827855016]
文書ベースのVisual Question Answeringコンペティションは、文書内の親子関係の自動検出に対処する。
本稿では,この課題に対処する PoliTo のアプローチについて述べる。
このアプローチの有効性により、ベースラインよりも高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-10-13T22:43:55Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Memory Augmented Sequential Paragraph Retrieval for Multi-hop Question
Answering [32.69969157825044]
本稿では,段落を逐次データとしてモデル化し,マルチホップ情報検索をシーケンスラベリングタスクの一種とみなす新しいアーキテクチャを提案する。
本手法は,公開テキストマルチホップQAデータセットであるHotpotQAのフルwikiとイントラクタサブタスクの両方で評価する。
論文 参考訳(メタデータ) (2021-02-07T08:15:51Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - Answering Any-hop Open-domain Questions with Iterative Document
Reranking [62.76025579681472]
オープンドメインの問に答える統合QAフレームワークを提案する。
提案手法は,シングルホップおよびマルチホップのオープンドメインQAデータセットにおいて,最先端技術に匹敵する性能を継続的に達成する。
論文 参考訳(メタデータ) (2020-09-16T04:31:38Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。