論文の概要: Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation
- arxiv url: http://arxiv.org/abs/2212.08632v1
- Date: Fri, 16 Dec 2022 18:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:28:13.698913
- Title: Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation
- Title(参考訳): 構造化知識と統一検索生成によるマルチモーダル・マルチホップ質問応答の強化
- Authors: Qian Yang, Qian Chen, Wen Wang, Baotian Hu, Min Zhang
- Abstract要約: マルチモーダルおよびマルチホップ質問応答は、異なるモーダルから複数の入力源に基づいて質問に答えることを目的としている。
それまでの方法は、証拠を別々に回収し、得られた証拠を言語モデルに供給し、対応する回答を生成する。
構造化知識と統一検索生成手法(SKURG)を提案する。
- 参考スコア(独自算出の注目度): 33.56304858796142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal and multi-hop question answering aims to answer a question based
on multiple input sources from different modalities. Previous methods retrieve
the evidence separately and feed the retrieved evidence to a language model to
generate the corresponding answer. However, these methods fail to build
connections between candidates and thus cannot model the inter-dependent
relation during retrieval. Moreover, the reasoning process over multi-modality
candidates can be unbalanced without building alignments between different
modalities. To address this limitation, we propose a Structured Knowledge and
Unified Retrieval Generation based method (SKURG). We align the sources from
different modalities via the shared entities and map them into a shared
semantic space via structured knowledge. Then, we utilize a unified
retrieval-generation decoder to integrate intermediate retrieval results for
answer generation and adaptively determine the number of retrieval steps. We
perform experiments on two multi-modal and multi-hop datasets: WebQA and
MultimodalQA. The results demonstrate that SKURG achieves state-of-the-art
performance on both retrieval and answer generation.
- Abstract(参考訳): マルチモーダルおよびマルチホップ質問応答は、異なるモーダルから複数の入力源に基づいて質問に答えることを目的としている。
以前の方法は、証拠を別々に検索し、検索した証拠を言語モデルに供給して対応する回答を生成する。
しかし、これらの手法は、候補間の接続を構築できないため、検索中に相互依存関係をモデル化できない。
さらに、マルチモダリティ候補に対する推論過程は、異なるモダリティ間のアライメントを構築することなく不均衡となる。
この制限に対処するために、構造化知識と統一検索生成法(SKURG)を提案する。
我々は、共有エンティティを介して異なるモダリティからソースを調整し、構造化された知識を介して共有セマンティック空間にマッピングする。
次に,統合検索生成デコーダを用いて,回答生成のための中間検索結果を統合し,検索ステップ数を適応的に決定する。
我々はWebQAとMultimodalQAという2つのマルチモーダルおよびマルチホップデータセットの実験を行った。
その結果,SKURGは検索および回答生成の両面で最先端の性能を発揮することがわかった。
関連論文リスト
- IRLab@iKAT24: Learned Sparse Retrieval with Multi-aspect LLM Query Generation for Conversational Search [6.974395116689502]
iKAT 2024は、対話アシスタントの進化に焦点を当て、対話と応答をパーソナライズされたユーザー知識から適応することができる。
このトラックには、Personal Textual Knowledge Base(PTKB)と会話型AIタスク(通訳ランキングや応答生成など)が組み込まれている。
論文 参考訳(メタデータ) (2024-11-22T05:18:35Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - From RAG to RICHES: Retrieval Interlaced with Sequence Generation [3.859418700143553]
本稿では、シーケンス生成タスクで検索をインターリーブする新しいアプローチであるRICHESを提案する。
コーパスに拘束された内容を直接デコードすることで、ドキュメントを検索する。
本稿では,属性付きQAやマルチホップQAを含むODQAタスクにおけるRICHESの強い性能を示す。
論文 参考訳(メタデータ) (2024-06-29T08:16:58Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。