論文の概要: Leveraging Large Language Models for Multiple Choice Question Answering
- arxiv url: http://arxiv.org/abs/2210.12353v1
- Date: Sat, 22 Oct 2022 05:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:03:41.368974
- Title: Leveraging Large Language Models for Multiple Choice Question Answering
- Title(参考訳): 多重選択質問応答のための大規模言語モデル活用
- Authors: Joshua Robinson, Christopher Michael Rytting, David Wingate
- Abstract要約: MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
- 参考スコア(独自算出の注目度): 6.198523595657983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) like GPT-3 have achieved impressive
results on multiple choice question answering (MCQA) tasks in the zero, one,
and few-shot settings, they generally lag behind the MCQA state of the art
(SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks.
An LLM is conditioned on a question (without the associated answer options) and
its chosen option is the one assigned the highest probability after
normalization (for length, etc.). A more natural prompting approach is to
present the question and answer options to the LLM jointly and have it output
the symbol (e.g., "A") associated with its chosen answer option. This approach
allows the model to explicitly compare answer options, reduces computational
costs, and mitigates the effects of tokenization scheme and answer option
representations on answer selection. For the natural approach to be effective
the LLM it is used with must be able to associate answer options with the
symbols that represent them. The LLM needs what we term multiple choice symbol
binding (MCSB) ability. This ability varies greatly by model. We show that a
model with high MCSB ability performs much better with the natural approach
than with the traditional approach across 20 diverse datasets and largely
closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been
previously underestimated.
- Abstract(参考訳): GPT-3のような大規模言語モデル(LLM)は、0、1、および少数ショット設定の複数の選択質問応答(MCQA)タスクにおいて印象的な結果を得たが、一般的にはMCQAの現状(SOTA)よりも遅れている。
MCQAタスクは伝統的に、クローゼタスクのようなLLMに提示されてきた。
LLM は質問(関連する回答オプションなしで)に条件付けされ、その選択された選択肢は正規化後の最も高い確率(長さなど)に割り当てられるものである。
より自然なプロンプトアプローチは、LLMに質問と回答の選択肢を共同で提示し、選択された回答オプションに関連するシンボル(例えば「A」)を出力することである。
このアプローチにより、モデルが回答オプションを明示的に比較し、計算コストを削減し、トークン化スキームと回答オプション表現が回答選択に与える影響を軽減できる。
LLMを効果的にするためには、答えオプションとそれらを表すシンボルを関連付ける必要がある。
LLMには、Multiple choice symbol binding (MCSB) と呼ばれる機能が必要です。
この能力はモデルによって大きく異なる。
MCSB能力の高いモデルは、従来の20種類のデータセットに対するアプローチよりも自然的アプローチの方が優れており、SOTAとのギャップを大きく埋めていることを示し、LCMのMCQA能力は以前過小評価されていたことを示唆している。
関連論文リスト
- Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions
Without the Question? [16.72299278087684]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。
このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。
選択のみの精度が記憶のみに起因するという証拠は見つからない。
LLMには、選択した質問から関連する質問を推測する能力がある。
論文 参考訳(メタデータ) (2024-02-19T19:38:58Z) - Enhancing Answer Selection in Community Question Answering with
Pre-trained and Large Language Models [0.9065034043031668]
まず,質問応答型クロスアテンションネットワーク(QAN)を提案する。
次に,大規模言語モデル(LLM)を用いて,知識拡張による回答選択を行う。
実験の結果、QANモデルが2つのデータセット、SemEval2015とSemEval 2017の最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-29T10:24:50Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:35:16Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [84.1784903043884]
Open-Domain Question Answering (ODQA) は、背景文書を明示的に提供せずにファクトイドの質問に答えることを目的としている。
ゼロショット設定では、Retriever-Readersのようなカスタマイズされたモデルをトレーニングするデータがないため、このタスクはより難しい。
本稿では,大規模言語モデルのパラメータに格納された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Selecting Better Samples from Pre-trained LLMs: A Case Study on Question
Generation [22.294762359009052]
近年,Large Language Models (LLMs) は,自然言語生成に顕著な進歩を見せている。
LLM生成候補の集合から高品質な質問を選択するための2つのプロンプトベースアプローチを提案する。
提案手法は,1)ブラックボックス(修正不可能な)質問生成モデル,2)人間による注釈付き参照へのアクセスの欠如という制約の下で機能する。
論文 参考訳(メタデータ) (2022-09-22T13:33:48Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。