Fugu-MT 論文翻訳(概要): Leveraging Large Language Models for Multiple Choice Question Answering

論文の概要: Leveraging Large Language Models for Multiple Choice Question Answering

arxiv url: http://arxiv.org/abs/2210.12353v1
Date: Sat, 22 Oct 2022 05:04:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 14:03:41.368974
Title: Leveraging Large Language Models for Multiple Choice Question Answering
Title（参考訳）: 多重選択質問応答のための大規模言語モデル活用
Authors: Joshua Robinson, Christopher Michael Rytting, David Wingate
Abstract要約: MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。 MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
参考スコア（独自算出の注目度）: 6.198523595657983
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) like GPT-3 have achieved impressive results on multiple choice question answering (MCQA) tasks in the zero, one, and few-shot settings, they generally lag behind the MCQA state of the art (SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks. An LLM is conditioned on a question (without the associated answer options) and its chosen option is the one assigned the highest probability after normalization (for length, etc.). A more natural prompting approach is to present the question and answer options to the LLM jointly and have it output the symbol (e.g., "A") associated with its chosen answer option. This approach allows the model to explicitly compare answer options, reduces computational costs, and mitigates the effects of tokenization scheme and answer option representations on answer selection. For the natural approach to be effective the LLM it is used with must be able to associate answer options with the symbols that represent them. The LLM needs what we term multiple choice symbol binding (MCSB) ability. This ability varies greatly by model. We show that a model with high MCSB ability performs much better with the natural approach than with the traditional approach across 20 diverse datasets and largely closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been previously underestimated.
Abstract（参考訳）: GPT-3のような大規模言語モデル(LLM)は、0、1、および少数ショット設定の複数の選択質問応答(MCQA)タスクにおいて印象的な結果を得たが、一般的にはMCQAの現状(SOTA)よりも遅れている。 MCQAタスクは伝統的に、クローゼタスクのようなLLMに提示されてきた。 LLM は質問(関連する回答オプションなしで)に条件付けされ、その選択された選択肢は正規化後の最も高い確率(長さなど)に割り当てられるものである。より自然なプロンプトアプローチは、LLMに質問と回答の選択肢を共同で提示し、選択された回答オプションに関連するシンボル(例えば「A」)を出力することである。このアプローチにより、モデルが回答オプションを明示的に比較し、計算コストを削減し、トークン化スキームと回答オプション表現が回答選択に与える影響を軽減できる。 LLMを効果的にするためには、答えオプションとそれらを表すシンボルを関連付ける必要がある。 LLMには、Multiple choice symbol binding (MCSB) と呼ばれる機能が必要です。この能力はモデルによって大きく異なる。 MCSB能力の高いモデルは、従来の20種類のデータセットに対するアプローチよりも自然的アプローチの方が優れており、SOTAとのギャップを大きく埋めていることを示し、LCMのMCQA能力は以前過小評価されていたことを示唆している。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文参考訳（メタデータ） (2024-08-21T12:05:21Z)
Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
論文参考訳（メタデータ） (2024-07-21T00:10:23Z)
Is Your Large Language Model Knowledgeable or a Choices-Only Cheater? [16.384333600053342]
最近の研究は、大きな言語モデル(LLM)が選択のみを使用して複数の選択肢の質問に答えることができることを示している。我々は、MCQAにおける選択のみのショートカットにLLMが過剰に頼っているかどうかを調査するコントラストセットを使用する。コントラストセットを検証した後、12個のLCMをテストし、これらのモデルが質問と選択の両方を与えられた場合、選択のみのショートカットに依存しないことを示した。
論文参考訳（メタデータ） (2024-07-02T07:06:53Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。 LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文参考訳（メタデータ） (2024-06-11T17:59:47Z)
UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文参考訳（メタデータ） (2024-04-20T10:41:02Z)
Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? [15.308093827770474]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
論文参考訳（メタデータ） (2024-02-19T19:38:58Z)
Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
Enhancing Answer Selection in Community Question Answering with Pre-trained and Large Language Models [0.9065034043031668]
まず,質問応答型クロスアテンションネットワーク(QAN)を提案する。次に,大規模言語モデル(LLM)を用いて,知識拡張による回答選択を行う。実験の結果、QANモデルが2つのデータセット、SemEval2015とSemEval 2017の最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2023-11-29T10:24:50Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-23T16:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。