論文の概要: Getting MoRE out of Mixture of Language Model Reasoning Experts
- arxiv url: http://arxiv.org/abs/2305.14628v2
- Date: Fri, 20 Oct 2023 05:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:57:43.641201
- Title: Getting MoRE out of Mixture of Language Model Reasoning Experts
- Title(参考訳): 言語モデル推論エキスパートの混在からMoREを脱却する
- Authors: Chenglei Si, Weijia Shi, Chen Zhao, Luke Zettlemoyer, Jordan
Boyd-Graber
- Abstract要約: 多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
- 参考スコア(独自算出の注目度): 71.61176122960464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent large language models (LLMs) improve on various question
answering (QA) datasets, it remains difficult for a single model to generalize
across question types that require distinct reasoning abilities. We provide
empirical evidence that state-of-the-art LLMs suffer from poor generalizability
on reasoning types beyond those seen in the prompt. To remedy this, we propose
a Mixture-of-Reasoning-Experts (MoRE) framework that ensembles diverse
specialized language models. We specialize the backbone language model with
prompts optimized for different reasoning categories, including factual,
multihop, mathematical, and commonsense reasoning. Our key insight is to
leverage agreement among the specialized experts to select the best answer for
each question, or to abstain from answering. This gives MoRE higher accuracy
than any single specialized model on a collection of 12 QA datasets from four
reasoning types. Beyond generalizability, the interpretable design of MoRE
improves selective question answering results compared to baselines without
incorporating inter-expert agreement. This framework is also more interpretable
and useful to human consumers of QA outputs. Our human study confirms that
presenting expert predictions and the answer selection process helps annotators
more accurately calibrate when to trust the system's output. We release all
code and data to facilitate future work.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) では, 様々な質問応答(QA)データセットが改良されているが, 特定の推論能力を必要とする質問タイプを1つのモデルで一般化することは困難である。
我々は,最先端のLSMが,プロンプトで見られる以上の推論型に対する一般化性の低下を経験的証拠として提示する。
そこで本稿では,多様な特殊言語モデルを合奏する混合推論エキスパート(more)フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
私たちの重要な洞察は、専門家間の合意を活用して、各質問に最適な回答を選択したり、回答を控えることです。
これにより、MoREは4つの推論タイプの12のQAデータセットのコレクションにおいて、任意の特別なモデルよりも精度が高い。
一般化性以外にも、MoREの解釈可能な設計は、専門家間の合意を組み込まずに、ベースラインと比較して選択的な質問応答結果を改善する。
このフレームワークはより解釈可能で、QA出力の消費者にとって有用である。
人間の研究では、専門家の予測と回答の選択プロセスが、システムのアウトプットをいつ信頼するかをより正確に調整するのに役立ちます。
将来の作業を容易にするために、すべてのコードとデータをリリースします。
関連論文リスト
- STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering [8.525847131940031]
マルチホップ質問応答(MHQA)は、複雑な質問に答えるために複数の通路から情報を検索し統合するモデルを必要とする。
近年のシステムでは、大規模言語モデルのパワーを活用し、証拠検索と推論のプロンプトを統合している。
MHQAの制約付き復号法であるSTOC-TOTを提案する。
論文 参考訳(メタデータ) (2024-07-04T07:17:53Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - A Study on Large Language Models' Limitations in Multiple-Choice
Question Answering [0.0]
26の小さなオープンソースモデルを分析し、その65%がタスクを理解していないことを発見した。
与えられた選択から解を適切に選ぶのは4つのモデルのみであり、これらのモデルのうち選択順序に依存しないのは5つのモデルのみである。
論文 参考訳(メタデータ) (2024-01-15T20:42:16Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Mixture of Experts for Biomedical Question Answering [34.92691831878302]
そこで我々はMOEBQAと呼ばれるMixture-of-Expert (MoE)ベースの質問応答手法を提案する。
MoEBQAはスパースルーティングによって異なるタイプの質問の計算を分離する。
実検に基づいて構築した3つのバイオメディカル質問応答(BQA)データセットのMOEBQAを評価する。
論文 参考訳(メタデータ) (2022-04-15T14:11:40Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。