Fugu-MT 論文翻訳(概要): Progressive Evidence Refinement for Open-domain Multimodal Retrieval Question Answering

論文の概要: Progressive Evidence Refinement for Open-domain Multimodal Retrieval Question Answering

arxiv url: http://arxiv.org/abs/2310.09696v1
Date: Sun, 15 Oct 2023 01:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 18:40:44.556203
Title: Progressive Evidence Refinement for Open-domain Multimodal Retrieval Question Answering
Title（参考訳）: オープンドメインマルチモーダル検索質問応答の進展的証拠化
Authors: Shuwen Yang, Anran Wu, Xingjiao Wu, Luwei Xiao, Tianlong Ma, Cheng Jin, Liang He
Abstract要約: 現在のマルチモーダル検索質問答えモデルは2つの大きな課題に直面している。モデルへの入力として圧縮されたエビデンスの特徴を利用すると、エビデンス内の詳細な情報が失われる。本稿では,これらの問題を緩和するための証拠検索と質問応答のための2段階の枠組みを提案する。
参考スコア（独自算出の注目度）: 20.59485758381809
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained multimodal models have achieved significant success in retrieval-based question answering. However, current multimodal retrieval question-answering models face two main challenges. Firstly, utilizing compressed evidence features as input to the model results in the loss of fine-grained information within the evidence. Secondly, a gap exists between the feature extraction of evidence and the question, which hinders the model from effectively extracting critical features from the evidence based on the given question. We propose a two-stage framework for evidence retrieval and question-answering to alleviate these issues. First and foremost, we propose a progressive evidence refinement strategy for selecting crucial evidence. This strategy employs an iterative evidence retrieval approach to uncover the logical sequence among the evidence pieces. It incorporates two rounds of filtering to optimize the solution space, thus further ensuring temporal efficiency. Subsequently, we introduce a semi-supervised contrastive learning training strategy based on negative samples to expand the scope of the question domain, allowing for a more thorough exploration of latent knowledge within known samples. Finally, in order to mitigate the loss of fine-grained information, we devise a multi-turn retrieval and question-answering strategy to handle multimodal inputs. This strategy involves incorporating multimodal evidence directly into the model as part of the historical dialogue and question. Meanwhile, we leverage a cross-modal attention mechanism to capture the underlying connections between the evidence and the question, and the answer is generated through a decoding generation approach. We validate the model's effectiveness through extensive experiments, achieving outstanding performance on WebQA and MultimodelQA benchmark tests.
Abstract（参考訳）: 事前学習されたマルチモーダルモデルは,検索に基づく質問応答において大きな成功を収めている。しかし、現在のマルチモーダル検索質問応答モデルには、2つの大きな課題がある。第一に、圧縮されたエビデンスの特徴をモデルへの入力として利用することで、エビデンス内の詳細な情報が失われる。第二に、エビデンスの特徴抽出と質問の間にギャップがあり、与えられた質問に基づいてエビデンスから重要な特徴を効果的に抽出することを妨げる。エビデンス検索と質問応答のための2段階の枠組みを提案する。まず,重要な証拠を選択するための進歩的証拠改質戦略を提案する。この戦略は、エビデンス中の論理的シーケンスを明らかにするために反復的エビデンス検索アプローチを採用する。解空間を最適化するために2ラウンドのフィルタリングを取り入れ、時間効率をさらに確保する。次に,否定的サンプルに基づく半教師付きコントラスト学習学習戦略を導入し,質問領域の範囲を拡大し,既知のサンプル内の潜在知識をより徹底的に探究する。最後に,細粒度情報の損失を軽減するために,マルチターン検索と質問応答戦略を考案し,マルチモーダル入力を処理する。この戦略は、歴史的対話と疑問の一部として、マルチモーダルな証拠を直接モデルに組み込む。一方,証拠と疑問との間の基礎となる関係を捉えるために,モーダル間注意機構を活用し,デコード生成手法を用いて回答を生成する。我々は、WebQAおよびMultimodelQAベンチマークテストにおいて優れた性能を達成し、広範囲な実験を通してモデルの有効性を検証する。

関連論文リスト

FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning [31.61978841892981]
本稿では,2つの段階で構築された新しいデータセットFortisAVQAを紹介する。第1段階はより多様性のあるテスト空間を拡大し、第2段階は洗練された堅牢性評価を可能にする。我々のアーキテクチャはFortisAVQAの最先端性能を実現し、7.81%の顕著な改善を実現している。
論文参考訳（メタデータ） (2025-04-01T07:23:50Z)
Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文参考訳（メタデータ） (2025-03-17T15:27:02Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。マルチグラニュラリティコントラストクロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文参考訳（メタデータ） (2024-10-12T06:21:58Z)
Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。マルチモーダルエビデンス検索のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-19T13:57:11Z)
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文参考訳（メタデータ） (2024-07-07T13:55:56Z)
Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models [17.60243337898751]
マルチモーダルおよび検索強化質問応答(QA)のためのチェーン・オブ・アクション・フレームワークを提案する。文献と比較すると、CoAは現在のQAアプリケーションにおける2つの大きな課題を克服している: (i) リアルタイムやドメインの事実と矛盾しない不誠実な幻覚、(ii) 構成情報よりも弱い推論性能。
論文参考訳（メタデータ） (2024-03-26T03:51:01Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。 PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文参考訳（メタデータ） (2023-02-23T18:59:05Z)
Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文参考訳（メタデータ） (2022-12-16T18:12:04Z)
Causal Intervention-based Prompt Debiasing for Event Argument Extraction [19.057467535856485]
我々は、名前ベースのプロンプトとオントロジーベースのプロンプトの2種類のプロンプトを比較し、オントロジーベースのプロンプトメソッドがゼロショットイベント引数抽出(EAE)においてそのプロンプトをいかに上回っているかを明らかにする。 2つのベンチマーク実験により,デバイアス法によって修正されたベースラインモデルは,より効果的かつ堅牢になり,対向攻撃に対する耐性が著しく向上することが示された。
論文参考訳（メタデータ） (2022-10-04T12:32:00Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。 WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-09-02T13:16:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。