論文の概要: POE: Process of Elimination for Multiple Choice Reasoning
- arxiv url: http://arxiv.org/abs/2310.15575v1
- Date: Tue, 24 Oct 2023 07:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:10:35.225177
- Title: POE: Process of Elimination for Multiple Choice Reasoning
- Title(参考訳): POE:複数選択推論のための除去プロセス
- Authors: Chenkai Ma, Xinya Du
- Abstract要約: 同様の2段階戦略は、複数の選択推論タスクにおいて、LMをより良くする可能性がある、と我々は主張する。
最初のステップでは、POEはそれぞれのオプションをスコアし、一見間違ったオプションを排除します。
2番目のステップでは、POEはこれらの間違ったオプションを隠蔽し、残りのオプションから最終的な予測を行う。
- 参考スコア(独自算出の注目度): 19.65826015840337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are capable of conducting in-context learning for
multiple choice reasoning tasks, but the options in these tasks are treated
equally. As humans often first eliminate wrong options before picking the final
correct answer, we argue a similar two-step strategy can make LMs better at
these tasks. To this end, we present the Process of Elimination (POE), a
two-step scoring method. In the first step, POE scores each option, and
eliminates seemingly wrong options. In the second step, POE masks these wrong
options, and makes the final prediction from the remaining options. Zero-shot
experiments on 8 reasoning tasks illustrate the effectiveness of POE, and a
following analysis finds our method to be especially performant on logical
reasoning tasks. We further analyze the effect of masks, and show that POE
applies to few-shot settings and large language models (LLMs) like ChatGPT.
- Abstract(参考訳): 言語モデル(LM)は、複数の選択推論タスクに対してコンテキスト内学習を行うことができるが、これらのタスクの選択肢は等しく扱われる。
人間は最後に正しい答えを選ぶ前に間違った選択肢を最初に排除するので、同様の2段階の戦略は、これらのタスクにおいてLMをより良くする、と私たちは主張する。
この目的のために, 2段階のスコアリング法であるプロセス・オブ・エミッション(POE)を提案する。
最初のステップでは、POEはそれぞれのオプションをスコアし、一見間違ったオプションを排除します。
2番目のステップでは、POEはこれらの間違ったオプションを隠蔽し、残りのオプションから最終的な予測を行う。
8つの推論タスクのゼロショット実験では,POEの有効性が示され,以下の分析により,論理的推論タスクに特に有効であることが判明した。
さらにマスクの効果を分析し,ChatGPTのような少数ショット設定や大規模言語モデル(LLM)に適用できることを示す。
関連論文リスト
- ACPBench: Reasoning about Action, Change, and Planning [22.47015814897628]
ACPBenchは、計画分野における推論タスクを評価するためのベンチマークである。
このコレクションは、形式言語で記述されたプランニングドメインから構築されている。
論文 参考訳(メタデータ) (2024-10-08T03:48:57Z) - Plan of Thoughts: Heuristic-Guided Problem Solving with Large Language Models [0.0]
言語モデルを用いた多段階問題解決のための計画的アプローチを定式化する。
ゲーム・オブ・24のタスクにおいて,既存のアプローチに比べて89.4%の優れた成功率を示す。
論文 参考訳(メタデータ) (2024-04-29T18:51:17Z) - Learning to Cut via Hierarchical Sequence/Set Model for Efficient Mixed-Integer Programming [61.59888010725235]
混合整数線形プログラム(MILP)の解法における切削平面(カット)の役割
カット選択ポリシーを学習するための新しい階層型シーケンス/セットモデル(HEM)を提案する。
HEMは、(P1)-(P3)を同時に扱う最初のデータ駆動手法である。
論文 参考訳(メタデータ) (2024-04-19T05:40:25Z) - It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning [16.626335975696243]
思考の連鎖(COT)は、大きな言語モデル(LLM)が正しい答えを推論するのに役立つが、誤った答えを推論する効果は未解明である。
我々はCOTを用いたPoEを提案するが、ここではLLMは複数の質問に対して誤った選択をしなくてはならない。
PoEの戦略は常に正しい回答を選択する戦略を過小評価している。
論文 参考訳(メタデータ) (2023-11-13T18:18:22Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Increasing Probability Mass on Answer Choices Does Not Always Improve
Accuracy [60.18632773935895]
同一の意味を持つ複数の曲面に確率質量を分散させることは、モデルの真の性能の過小評価を引き起こすと考えられている。
我々はSFCの数学的形式論を提案し、初めてその影響を定量化し、束縛することができる。
提案手法は,各回答選択の確率質量をaで増加させるという単純な方法であり,プロンプトに含め,bに含めた確率質量をbで増加させる手法である。
論文 参考訳(メタデータ) (2023-05-24T00:27:00Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。