論文の概要: Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation
- arxiv url: http://arxiv.org/abs/2212.08632v2
- Date: Mon, 7 Aug 2023 03:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 00:29:28.538821
- Title: Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation
- Title(参考訳): 構造化知識と統一検索生成によるマルチモーダル・マルチホップ質問応答の強化
- Authors: Qian Yang, Qian Chen, Wen Wang, Baotian Hu, Min Zhang
- Abstract要約: マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
- 参考スコア(独自算出の注目度): 33.56304858796142
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal multi-hop question answering involves answering a question by
reasoning over multiple input sources from different modalities. Existing
methods often retrieve evidences separately and then use a language model to
generate an answer based on the retrieved evidences, and thus do not adequately
connect candidates and are unable to model the interdependent relations during
retrieval. Moreover, the pipelined approaches of retrieval and generation might
result in poor generation performance when retrieval performance is low. To
address these issues, we propose a Structured Knowledge and Unified
Retrieval-Generation (SKURG) approach. SKURG employs an Entity-centered Fusion
Encoder to align sources from different modalities using shared entities. It
then uses a unified Retrieval-Generation Decoder to integrate intermediate
retrieval results for answer generation and also adaptively determine the
number of retrieval steps. Extensive experiments on two representative
multi-modal multi-hop QA datasets MultimodalQA and WebQA demonstrate that SKURG
outperforms the state-of-the-art models in both source retrieval and answer
generation performance with fewer parameters. Our code is available at
https://github.com/HITsz-TMG/SKURG.
- Abstract(参考訳): マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その証拠に基づいて回答を生成するために言語モデルを使用するため、候補を適切に結合せず、検索中に相互依存関係をモデル化できない。
また,検索と生成のパイプライン化手法は,検索性能が低ければ生成性能が低下する可能性がある。
そこで本研究では,構造化知識と統一検索生成(skurg)手法を提案する。
SKURGはエンティティ中心のFusion Encoderを使用して、共有エンティティを使用して異なるモダリティからのソースをアライメントする。
次に、統合された検索生成デコーダを使用して、回答生成のための中間検索結果を統合し、検索ステップ数を適応的に決定する。
2つの代表的なマルチモーダルマルチホップQAデータセットに関する大規模な実験により、MultimodalQAとWebQAは、SKURGがより少ないパラメータでソース検索と回答生成性能の両方において最先端モデルより優れていることを示した。
私たちのコードはhttps://github.com/HITsz-TMG/SKURG.comで公開されています。
関連論文リスト
- IRLab@iKAT24: Learned Sparse Retrieval with Multi-aspect LLM Query Generation for Conversational Search [6.974395116689502]
iKAT 2024は、対話アシスタントの進化に焦点を当て、対話と応答をパーソナライズされたユーザー知識から適応することができる。
このトラックには、Personal Textual Knowledge Base(PTKB)と会話型AIタスク(通訳ランキングや応答生成など)が組み込まれている。
論文 参考訳(メタデータ) (2024-11-22T05:18:35Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - From RAG to RICHES: Retrieval Interlaced with Sequence Generation [3.859418700143553]
本稿では、シーケンス生成タスクで検索をインターリーブする新しいアプローチであるRICHESを提案する。
コーパスに拘束された内容を直接デコードすることで、ドキュメントを検索する。
本稿では,属性付きQAやマルチホップQAを含むODQAタスクにおけるRICHESの強い性能を示す。
論文 参考訳(メタデータ) (2024-06-29T08:16:58Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。