論文の概要: Mixture of Prompt Experts for Generalizable and Interpretable Question
Answering
- arxiv url: http://arxiv.org/abs/2305.14628v1
- Date: Wed, 24 May 2023 02:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:37:40.254355
- Title: Mixture of Prompt Experts for Generalizable and Interpretable Question
Answering
- Title(参考訳): 一般化・解釈可能な質問応答のためのプロンプトエキスパートの混合
- Authors: Chenglei Si, Weijia Shi, Chen Zhao, Luke Zettlemoyer, Jordan
Boyd-Graber
- Abstract要約: 我々は,複数の特殊なLLMをアンサンブルするMOPEシステムを提案する。
各質問に対して最適な特化モデルを戦略的に選択することにより、MOPEシステムは、12のQAデータセットのコレクション上で、どの特化モデルよりも大幅に優れています。
我々の人間による研究は、専門家による予測と回答の選択プロセスの提示が、アノテータがシステムの出力をいつ信頼するかをより正確に決定するのに役立つことを確認している。
- 参考スコア(独自算出の注目度): 61.63786831192267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the ultimate quests of question answering (QA) is to deploy a system
that can answer any type of question from the users, and refrain from answering
when it does not know the answer. While recent advancements in scaling large
language models (LLMs) brought significant improvements on various QA datasets,
it remains difficult for a single model to generalize across question types
that require distinct reasoning abilities. In this paper, we first provide
empirical evidence that state-of-the-art LLMs such as Codex suffer from poor
generalizability on question types beyond those seen in the prompt. To address
this, we propose a Mixture-of-Prompt-Experts (MOPE) system that ensembles
multiple specialized LLMs. We first implement each specialized model based on
the same backbone model (Codex) but with prompts optimized for different
reasoning categories including factual, multihop, mathematical, and commonsense
reasoning. By strategically selecting the best specialized model for each given
question, our MOPE system significantly outperforms any single specialized
model on a collection of 12 QA datasets from four reasoning types. Moreover,
the attribution and agreement among specialized expert models offer greater
interpretability, allowing for better selective question answering. Our human
study further confirms that presenting the expert predictions and answer
selection process helps annotators more accurately decide when to trust the
system's output. We release all code and data to facilitate future work.
- Abstract(参考訳): 質問応答(QA)の究極的な探求の1つは、ユーザーからどんな種類の質問にも答えられるシステムをデプロイし、答えを知らないときの回答を控えることである。
近年の大規模言語モデル(LLM)のスケーリングの進歩は、様々なQAデータセットに大幅な改善をもたらしたが、特定の推論能力を必要とする質問タイプを1つのモデルで一般化することは困難である。
本稿では,まず,codex のような最先端の llm が,プロンプトで見られるものよりも,質問型の一般化性に乏しいことを実証的に示す。
そこで本研究では,複数の特殊なLLMをアンサンブルするMOPEシステムを提案する。
我々はまず,同じバックボーンモデル(Codex)に基づいて各専門モデルを実装するが,実数,マルチホップ,数学的,コモンセンスの推論など,さまざまな推論カテゴリに最適化されたプロンプトを持つ。
それぞれの質問に対して最適な特化モデルを戦略的に選択することにより、MOPEシステムは4つの推論型から12のQAデータセットの集合において、どの特化モデルよりも有意に優れている。
さらに、専門的な専門家モデル間の属性と合意は、より深い解釈可能性を提供し、より良い選択的な質問応答を可能にする。
また,人間実験では,専門家の予測と回答選択のプロセスが,システムの出力をいつ信頼するかをより正確に判断するのに役立つことを確認した。
将来の作業を容易にするために、すべてのコードとデータをリリースします。
関連論文リスト
- LRQ-Fact: LLM-Generated Relevant Questions for Multimodal Fact-Checking [14.647261841209767]
マルチモーダルなファクトチェックのための完全自動フレームワークLRQ-Factを提案する。
マルチモーダルコンテンツを探索するための総合的な質問や回答を生成する。
そして、元のコンテンツと生成された質問と回答の両方を評価し、全体的な妥当性を評価する。
論文 参考訳(メタデータ) (2024-10-06T20:33:22Z) - Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering [8.525847131940031]
マルチホップ質問応答(MHQA)は、複雑な質問に答えるために複数の通路から情報を検索し統合するモデルを必要とする。
近年のシステムでは、大規模言語モデルのパワーを活用し、証拠検索と推論のプロンプトを統合している。
MHQAの制約付き復号法であるSTOC-TOTを提案する。
論文 参考訳(メタデータ) (2024-07-04T07:17:53Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - A Study on Large Language Models' Limitations in Multiple-Choice Question Answering [0.0]
26の小さなオープンソースモデルを分析し、その65%がタスクを理解していないことを発見した。
与えられた選択から解を適切に選ぶのは4つのモデルのみであり、これらのモデルのうち選択順序に依存しないのは5つのモデルのみである。
論文 参考訳(メタデータ) (2024-01-15T20:42:16Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Mixture of Experts for Biomedical Question Answering [34.92691831878302]
そこで我々はMOEBQAと呼ばれるMixture-of-Expert (MoE)ベースの質問応答手法を提案する。
MoEBQAはスパースルーティングによって異なるタイプの質問の計算を分離する。
実検に基づいて構築した3つのバイオメディカル質問応答(BQA)データセットのMOEBQAを評価する。
論文 参考訳(メタデータ) (2022-04-15T14:11:40Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。