論文の概要: Multimodal Multihop Source Retrieval for Web Question Answering
- arxiv url: http://arxiv.org/abs/2501.04173v1
- Date: Tue, 07 Jan 2025 22:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:55.212291
- Title: Multimodal Multihop Source Retrieval for Web Question Answering
- Title(参考訳): Web 質問応答のためのマルチモーダルマルチホップソース検索
- Authors: Navya Yarrabelly, Saloni Mittal,
- Abstract要約: この研究はマルチモーダルなマルチホップ質問応答(QA)に対する学習と推論の課題を扱う。
文の意味構造に基づくグラフ推論ネットワークを提案し,多元的推論経路を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work deals with the challenge of learning and reasoning over multi-modal multi-hop question answering (QA). We propose a graph reasoning network based on the semantic structure of the sentences to learn multi-source reasoning paths and find the supporting facts across both image and text modalities for answering the question. In this paper, we investigate the importance of graph structure for multi-modal multi-hop question answering. Our analysis is centered on WebQA. We construct a strong baseline model, that finds relevant sources using a pairwise classification task. We establish that, with the proper use of feature representations from pre-trained models, graph structure helps in improving multi-modal multi-hop question answering. We point out that both graph structure and adjacency matrix are task-related prior knowledge, and graph structure can be leveraged to improve the retrieval performance for the task. Experiments and visualized analysis demonstrate that message propagation over graph networks or the entire graph structure can replace massive multimodal transformers with token-wise cross-attention. We demonstrated the applicability of our method and show a performance gain of \textbf{4.6$\%$} retrieval F1score over the transformer baselines, despite being a very light model. We further demonstrated the applicability of our model to a large scale retrieval setting.
- Abstract(参考訳): この研究は、マルチモーダルなマルチホップ質問応答(QA)に対する学習と推論の課題を扱う。
文の意味的構造に基づくグラフ推論ネットワークを提案し,複数ソースの推論パスを学習し,その疑問に答えるための画像とテキストのモダリティをまたいだ支援事実を見つける。
本稿では,マルチモーダルなマルチホップ質問応答におけるグラフ構造の重要性について検討する。
私たちの分析はWebQAを中心にしています。
我々は、ペアワイズ分類タスクを用いて関連する情報源を見つける強力なベースラインモデルを構築した。
事前訓練されたモデルから特徴表現を適切に活用することにより、グラフ構造がマルチモーダルなマルチホップ質問応答の改善に有効であることを示す。
グラフ構造と隣接行列の両方がタスク関連事前知識であり,グラフ構造を利用してタスクの検索性能を向上させることができることを指摘する。
実験と可視化分析により、グラフネットワークやグラフ構造全体にわたるメッセージの伝搬が、巨大なマルチモーダルトランスフォーマーをトークン単位のクロスアテンションで置き換えることができることを示した。
提案手法の適用性を実証し, 非常に軽量なモデルであるにもかかわらず, トランスフォーマーベースライン上での検索 F1score の性能向上を示した。
さらに,大規模検索環境に適用可能であることを実証した。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-30T21:22:35Z) - Graph Attention with Hierarchies for Multi-hop Question Answering [19.398300844233837]
本稿では,HotpotQAに対するSOTA Graph Neural Network(GNN)モデルの拡張について述べる。
HotpotQAの実験は、提案された修正の効率を実証している。
論文 参考訳(メタデータ) (2023-01-27T15:49:50Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Relational Graph Convolutional Neural Networks for Multihop Reasoning: A
Comparative Study [22.398477810999818]
マルチホップ質問回答(Multihop Question Answering)は、正しい答えを見つけるために推論のステップを必要とする複雑なタスクである。
本稿では, RGCNベースのマルチホップQAモデル, グラフ関係, ノード埋め込みについて検討し, WikiHopデータセット上でのマルチホップQA性能への影響を実証的に検討する。
論文 参考訳(メタデータ) (2022-10-12T17:13:30Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Dynamic Semantic Graph Construction and Reasoning for Explainable
Multi-hop Science Question Answering [50.546622625151926]
マルチホップQAのための説明可能性を得ながら,より有効な事実を活用できる新しいフレームワークを提案する。
a) tt AMR-SG,(a) tt AMR-SG,(a) tt AMR-SG,(a) tt AMR-SG,(c) グラフ畳み込みネットワーク(GCN)を利用した事実レベルの関係モデリング,(c) 推論過程の導出を行う。
論文 参考訳(メタデータ) (2021-05-25T09:14:55Z) - Is Graph Structure Necessary for Multi-hop Question Answering? [34.189355591677725]
マルチホップ質問応答にグラフ構造が必要であるかを検討する。
実験と可視化分析により、グラフアテンションまたはグラフ構造全体を自己アテンションまたはトランスフォーマーに置き換えることができることを示した。
論文 参考訳(メタデータ) (2020-04-07T02:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。