論文の概要: Progressive Evidence Refinement for Open-domain Multimodal Retrieval
Question Answering
- arxiv url: http://arxiv.org/abs/2310.09696v1
- Date: Sun, 15 Oct 2023 01:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:40:44.556203
- Title: Progressive Evidence Refinement for Open-domain Multimodal Retrieval
Question Answering
- Title(参考訳): オープンドメインマルチモーダル検索質問応答の進展的証拠化
- Authors: Shuwen Yang, Anran Wu, Xingjiao Wu, Luwei Xiao, Tianlong Ma, Cheng
Jin, Liang He
- Abstract要約: 現在のマルチモーダル検索質問答えモデルは2つの大きな課題に直面している。
モデルへの入力として圧縮されたエビデンスの特徴を利用すると、エビデンス内の詳細な情報が失われる。
本稿では,これらの問題を緩和するための証拠検索と質問応答のための2段階の枠組みを提案する。
- 参考スコア(独自算出の注目度): 20.59485758381809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained multimodal models have achieved significant success in
retrieval-based question answering. However, current multimodal retrieval
question-answering models face two main challenges. Firstly, utilizing
compressed evidence features as input to the model results in the loss of
fine-grained information within the evidence. Secondly, a gap exists between
the feature extraction of evidence and the question, which hinders the model
from effectively extracting critical features from the evidence based on the
given question. We propose a two-stage framework for evidence retrieval and
question-answering to alleviate these issues. First and foremost, we propose a
progressive evidence refinement strategy for selecting crucial evidence. This
strategy employs an iterative evidence retrieval approach to uncover the
logical sequence among the evidence pieces. It incorporates two rounds of
filtering to optimize the solution space, thus further ensuring temporal
efficiency. Subsequently, we introduce a semi-supervised contrastive learning
training strategy based on negative samples to expand the scope of the question
domain, allowing for a more thorough exploration of latent knowledge within
known samples. Finally, in order to mitigate the loss of fine-grained
information, we devise a multi-turn retrieval and question-answering strategy
to handle multimodal inputs. This strategy involves incorporating multimodal
evidence directly into the model as part of the historical dialogue and
question. Meanwhile, we leverage a cross-modal attention mechanism to capture
the underlying connections between the evidence and the question, and the
answer is generated through a decoding generation approach. We validate the
model's effectiveness through extensive experiments, achieving outstanding
performance on WebQA and MultimodelQA benchmark tests.
- Abstract(参考訳): 事前学習されたマルチモーダルモデルは,検索に基づく質問応答において大きな成功を収めている。
しかし、現在のマルチモーダル検索質問応答モデルには、2つの大きな課題がある。
第一に、圧縮されたエビデンスの特徴をモデルへの入力として利用することで、エビデンス内の詳細な情報が失われる。
第二に、エビデンスの特徴抽出と質問の間にギャップがあり、与えられた質問に基づいてエビデンスから重要な特徴を効果的に抽出することを妨げる。
エビデンス検索と質問応答のための2段階の枠組みを提案する。
まず,重要な証拠を選択するための進歩的証拠改質戦略を提案する。
この戦略は、エビデンス中の論理的シーケンスを明らかにするために反復的エビデンス検索アプローチを採用する。
解空間を最適化するために2ラウンドのフィルタリングを取り入れ、時間効率をさらに確保する。
次に,否定的サンプルに基づく半教師付きコントラスト学習学習戦略を導入し,質問領域の範囲を拡大し,既知のサンプル内の潜在知識をより徹底的に探究する。
最後に,細粒度情報の損失を軽減するために,マルチターン検索と質問応答戦略を考案し,マルチモーダル入力を処理する。
この戦略は、歴史的対話と疑問の一部として、マルチモーダルな証拠を直接モデルに組み込む。
一方,証拠と疑問との間の基礎となる関係を捉えるために,モーダル間注意機構を活用し,デコード生成手法を用いて回答を生成する。
我々は、WebQAおよびMultimodelQAベンチマークテストにおいて優れた性能を達成し、広範囲な実験を通してモデルの有効性を検証する。
関連論文リスト
- Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models [17.60243337898751]
マルチモーダルおよび検索強化質問応答(QA)のためのチェーン・オブ・アクション・フレームワークを提案する。
文献と比較すると、CoAは現在のQAアプリケーションにおける2つの大きな課題を克服している: (i) リアルタイムやドメインの事実と矛盾しない不誠実な幻覚、(ii) 構成情報よりも弱い推論性能。
論文 参考訳(メタデータ) (2024-03-26T03:51:01Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z) - Causal Intervention-based Prompt Debiasing for Event Argument Extraction [19.057467535856485]
我々は、名前ベースのプロンプトとオントロジーベースのプロンプトの2種類のプロンプトを比較し、オントロジーベースのプロンプトメソッドがゼロショットイベント引数抽出(EAE)においてそのプロンプトをいかに上回っているかを明らかにする。
2つのベンチマーク実験により,デバイアス法によって修正されたベースラインモデルは,より効果的かつ堅牢になり,対向攻撃に対する耐性が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-04T12:32:00Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。
WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。