論文の概要: Progressive Evidence Refinement for Open-domain Multimodal Retrieval
Question Answering
- arxiv url: http://arxiv.org/abs/2310.09696v1
- Date: Sun, 15 Oct 2023 01:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:40:44.556203
- Title: Progressive Evidence Refinement for Open-domain Multimodal Retrieval
Question Answering
- Title(参考訳): オープンドメインマルチモーダル検索質問応答の進展的証拠化
- Authors: Shuwen Yang, Anran Wu, Xingjiao Wu, Luwei Xiao, Tianlong Ma, Cheng
Jin, Liang He
- Abstract要約: 現在のマルチモーダル検索質問答えモデルは2つの大きな課題に直面している。
モデルへの入力として圧縮されたエビデンスの特徴を利用すると、エビデンス内の詳細な情報が失われる。
本稿では,これらの問題を緩和するための証拠検索と質問応答のための2段階の枠組みを提案する。
- 参考スコア(独自算出の注目度): 20.59485758381809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained multimodal models have achieved significant success in
retrieval-based question answering. However, current multimodal retrieval
question-answering models face two main challenges. Firstly, utilizing
compressed evidence features as input to the model results in the loss of
fine-grained information within the evidence. Secondly, a gap exists between
the feature extraction of evidence and the question, which hinders the model
from effectively extracting critical features from the evidence based on the
given question. We propose a two-stage framework for evidence retrieval and
question-answering to alleviate these issues. First and foremost, we propose a
progressive evidence refinement strategy for selecting crucial evidence. This
strategy employs an iterative evidence retrieval approach to uncover the
logical sequence among the evidence pieces. It incorporates two rounds of
filtering to optimize the solution space, thus further ensuring temporal
efficiency. Subsequently, we introduce a semi-supervised contrastive learning
training strategy based on negative samples to expand the scope of the question
domain, allowing for a more thorough exploration of latent knowledge within
known samples. Finally, in order to mitigate the loss of fine-grained
information, we devise a multi-turn retrieval and question-answering strategy
to handle multimodal inputs. This strategy involves incorporating multimodal
evidence directly into the model as part of the historical dialogue and
question. Meanwhile, we leverage a cross-modal attention mechanism to capture
the underlying connections between the evidence and the question, and the
answer is generated through a decoding generation approach. We validate the
model's effectiveness through extensive experiments, achieving outstanding
performance on WebQA and MultimodelQA benchmark tests.
- Abstract(参考訳): 事前学習されたマルチモーダルモデルは,検索に基づく質問応答において大きな成功を収めている。
しかし、現在のマルチモーダル検索質問応答モデルには、2つの大きな課題がある。
第一に、圧縮されたエビデンスの特徴をモデルへの入力として利用することで、エビデンス内の詳細な情報が失われる。
第二に、エビデンスの特徴抽出と質問の間にギャップがあり、与えられた質問に基づいてエビデンスから重要な特徴を効果的に抽出することを妨げる。
エビデンス検索と質問応答のための2段階の枠組みを提案する。
まず,重要な証拠を選択するための進歩的証拠改質戦略を提案する。
この戦略は、エビデンス中の論理的シーケンスを明らかにするために反復的エビデンス検索アプローチを採用する。
解空間を最適化するために2ラウンドのフィルタリングを取り入れ、時間効率をさらに確保する。
次に,否定的サンプルに基づく半教師付きコントラスト学習学習戦略を導入し,質問領域の範囲を拡大し,既知のサンプル内の潜在知識をより徹底的に探究する。
最後に,細粒度情報の損失を軽減するために,マルチターン検索と質問応答戦略を考案し,マルチモーダル入力を処理する。
この戦略は、歴史的対話と疑問の一部として、マルチモーダルな証拠を直接モデルに組み込む。
一方,証拠と疑問との間の基礎となる関係を捉えるために,モーダル間注意機構を活用し,デコード生成手法を用いて回答を生成する。
我々は、WebQAおよびMultimodelQAベンチマークテストにおいて優れた性能を達成し、広範囲な実験を通してモデルの有効性を検証する。
関連論文リスト
- Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Causal Intervention-based Prompt Debiasing for Event Argument Extraction [19.057467535856485]
我々は、名前ベースのプロンプトとオントロジーベースのプロンプトの2種類のプロンプトを比較し、オントロジーベースのプロンプトメソッドがゼロショットイベント引数抽出(EAE)においてそのプロンプトをいかに上回っているかを明らかにする。
2つのベンチマーク実験により,デバイアス法によって修正されたベースラインモデルは,より効果的かつ堅牢になり,対向攻撃に対する耐性が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-04T12:32:00Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Context Modeling with Evidence Filter for Multiple Choice Question
Answering [18.154792554957595]
MCQA(Multi-Choice Question Answering)は、機械読解における課題である。
主な課題は、正しい答えをサポートする与えられたコンテキストから"エビデンス"を抽出することである。
既存の作業は、人間の努力に過度に依存するルールで注釈付きエビデンスや遠方の監督によってこの問題に取り組む。
本稿では,エンコードされた文脈間の関係をモデル化するためのエビデンスフィルタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-06T11:53:23Z) - SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。
WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。