論文の概要: MoEMoE: Question Guided Dense and Scalable Sparse Mixture-of-Expert for Multi-source Multi-modal Answering
- arxiv url: http://arxiv.org/abs/2503.06296v1
- Date: Sat, 08 Mar 2025 18:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:03.389918
- Title: MoEMoE: Question Guided Dense and Scalable Sparse Mixture-of-Expert for Multi-source Multi-modal Answering
- Title(参考訳): MoEMoE:マルチソースマルチモーダルアンサーのための質問ガイドド・センスとスケーラブルスパース・ミックス
- Authors: Vinay Kumar Verma, Shreyas Sunil Kulkarni, Happy Mittal, Deepak Gupta,
- Abstract要約: 質問応答 (QA) と質問応答 (VQA) は言語と視覚領域においてよく研究されている問題である。
難解なシナリオの1つとして、複数の情報ソースがあり、それぞれ異なるモダリティがあり、そこでは1つ以上のソースに質問に対する答えが存在する可能性がある。
マルチソース・マルチモーダル情報を含む環境における質問応答生成フレームワークを定式化する。
- 参考スコア(独自算出の注目度): 12.587358542578126
- License:
- Abstract: Question Answering (QA) and Visual Question Answering (VQA) are well-studied problems in the language and vision domain. One challenging scenario involves multiple sources of information, each of a different modality, where the answer to the question may exist in one or more sources. This scenario contains richer information but is highly complex to handle. In this work, we formulate a novel question-answer generation (QAG) framework in an environment containing multi-source, multimodal information. The answer may belong to any or all sources; therefore, selecting the most prominent answer source or an optimal combination of all sources for a given question is challenging. To address this issue, we propose a question-guided attention mechanism that learns attention across multiple sources and decodes this information for robust and unbiased answer generation. To learn attention within each source, we introduce an explicit alignment between questions and various information sources, which facilitates identifying the most pertinent parts of the source information relative to the question. Scalability in handling diverse questions poses a challenge. We address this by extending our model to a sparse mixture-of-experts (sparse-MoE) framework, enabling it to handle thousands of question types. Experiments on T5 and Flan-T5 using three datasets demonstrate the model's efficacy, supported by ablation studies.
- Abstract(参考訳): 質問応答 (QA) と質問応答 (VQA) は言語と視覚領域においてよく研究されている問題である。
難解なシナリオの1つとして、複数の情報ソースがあり、それぞれ異なるモダリティがあり、そこでは1つ以上のソースに質問に対する答えが存在する可能性がある。
このシナリオは豊富な情報を含んでいるが、扱うのは非常に複雑である。
本研究では,マルチソース・マルチモーダル情報を含む環境において,質問応答生成(QAG)フレームワークを定式化する。
答えは任意のソースまたはすべてのソースに属する可能性があるため、最も顕著な回答ソースを選択するか、与えられた質問に対するすべてのソースの最適な組み合わせを選択することは困難である。
この問題に対処するために,複数のソースにまたがる注意を学習し,その情報を頑健で偏りのない回答生成のためにデコードする,質問誘導型注意機構を提案する。
本研究は,各情報源の注意を喚起するために,質問と様々な情報ソースの明確なアライメントを導入し,質問に対して最も関連性の高い部分を特定することを容易にする。
多様な質問に対処するスケーラビリティが課題となる。
この問題を解決するために、モデルをスパース・ミックス・オブ・エキスパート(スパース・モーエ)フレームワークに拡張し、何千もの質問タイプを処理できるようにします。
3つのデータセットを用いたT5とFlan-T5の実験では、アブレーション研究によって支持されたモデルの有効性が示されている。
関連論文リスト
- Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Aspect-oriented Consumer Health Answer Summarization [2.298110639419913]
コミュニティ質問回答(Community Question-Answering、CQA)フォーラムは、人々が情報を求める方法、特に医療ニーズに関連するものに革命をもたらした。
単一のクエリに対する応答にはいくつかの回答があるため、特定の健康上の懸念に関連する重要な情報を把握することが難しくなる。
本研究は、この制限に対処するために、側面に基づく健康回答の要約に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-10T07:52:43Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-ofDiscussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Answering Subjective Induction Questions on Products by Summarizing
Multi-sources Multi-viewpoints Knowledge [0.04791377777154766]
本稿では,製品に対する主観的誘導質問に対する回答の分野における新しい課題を提案する。
この種の質問に対する答えは普遍的ではないが、多くの観点から解釈できる。
満足した答えは、これらの主観的な意見を複数の情報源から要約し、客観的な知識を提供することができるべきである。
論文 参考訳(メタデータ) (2023-09-12T03:27:08Z) - HeteroQA: Learning towards Question-and-Answering through Multiple
Information Sources via Heterogeneous Graph Modeling [50.39787601462344]
コミュニティ質問回答(Community Question Answering, CQA)は、Eコマースやオンラインユーザコミュニティなど、多くのシナリオで利用することができる、明確に定義されたタスクである。
CQAの手法のほとんどは、知識を抽出し、ユーザの質問に答えるために記事やウィキペディアしか含まない。
ユーザコミュニティに複数の情報ソース(MIS)を組み込んで回答を自動的に生成する問合せ対応の異種グラフ変換器を提案する。
論文 参考訳(メタデータ) (2021-12-27T10:16:43Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。