論文の概要: Option-ID Based Elimination For Multiple Choice Questions
- arxiv url: http://arxiv.org/abs/2501.15175v2
- Date: Sat, 15 Feb 2025 17:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 16:13:23.388594
- Title: Option-ID Based Elimination For Multiple Choice Questions
- Title(参考訳): オプションIDに基づく複数質問の除去
- Authors: Zhenhao Zhu, Bulou Liu, Qingyao Ai, Yiqun Liu,
- Abstract要約: 複数選択質問(MCQ)は、大規模言語モデル(LLM)を評価するために人気があり重要なタスクである。
MCQの回答に使用する共通戦略に基づいて, 効率的な問題解決手法として, 除去プロセス(PoE)が提案されている。
本稿では,オプションIDに基づくPoEを提案する。
- 参考スコア(独自算出の注目度): 12.30777266124562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple choice questions (MCQs) are a popular and important task for evaluating large language models (LLMs). Based on common strategies people use when answering MCQs, the process of elimination (PoE) has been proposed as an effective problem-solving method. Existing methods to the PoE generally fall into two categories: one involves having the LLM directly select the incorrect options, while the other involves scoring the options. However, both methods incur high computational costs and often perform worse than methods that directly answer the MCQs with the option IDs. To address this issue, this paper proposes a PoE based on option ID. Specifically, our method eliminates option by selecting the option ID with the lowest probability. We conduct experiments with 10 different LLMs in zero-shot settings on 7 publicly available datasets. The experimental results demonstrate that our method significantly improves the LLM's performance. Further analysis reveals that the sequential elimination strategy can effectively enhance the LLM's reasoning ability. Additionally, we find that sequential elimination is also applicable to few-shot settings and can be combined with debias methods to further improve LLM's performance.
- Abstract(参考訳): 複数選択質問(MCQ)は、大規模言語モデル(LLM)を評価するために人気があり重要なタスクである。
MCQの回答に使用する共通戦略に基づいて, 効率的な問題解決手法として, 除去プロセス(PoE)が提案されている。
既存のPoEのメソッドは、一般的に2つのカテゴリに分類される: 1つは、LCMが間違ったオプションを直接選択すること、もう1つはオプションをスコアリングすることである。
しかし、どちらの手法も高い計算コストを発生させ、オプションIDでMCQに直接答える手法よりも性能が劣ることが多い。
この問題に対処するために,オプションIDに基づくPoEを提案する。
具体的には,オプションIDを最も低い確率で選択することで,オプションを除去する。
公開されている7つのデータセット上で、ゼロショット設定で10の異なるLLMを用いて実験を行う。
実験の結果,本手法はLLMの性能を著しく向上させることがわかった。
さらに解析した結果, 逐次除去戦略はLCMの推論能力を効果的に向上させることができることがわかった。
さらに、逐次除去は、少数ショット設定にも適用でき、デバイアス法と組み合わせることで、LCMの性能をさらに向上させることができる。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering [1.0874597293913013]
MCQA(Multiple Choice Question Answering)は、医学、法学、教育など、多くの現実世界の応用において重要な問題である。
本稿では,データ生成とスコアリングに大規模言語モデルを用いる,シンプルで効果的な手法を提案する。
提案手法では, 精度が28.9%から39.3%に向上し, 5ショットで直接微調整したベースラインに比べて10%以上向上した。
論文 参考訳(メタデータ) (2024-12-13T02:48:36Z) - MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models [0.0]
本稿では,マルチモーダルモデルを用いた除去プロセスについて述べる。
この手法は、視覚的多面的推論タスクにおける視覚言語モデル(VLM)の有効性を高めるために設計されている。
3つのベンチマークデータセットで実施した経験的評価の結果,MM-PoEはゼロショットと少数ショットの両方のパフォーマンスを著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-12-10T03:13:41Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Transfer Learning Enhanced Single-choice Decision for Multi-choice Question Answering [27.601353412882258]
MMRC (Multi-choice Machine Reading) は、与えられたパスと質問に基づいて、オプションのセットから正しい回答を選択することを目的としている。
本稿では,ある解答が正しいかどうかを識別するために,二項分類を訓練することにより,複数選択を単一選択に再構成する。
提案手法はマルチ選択フレームワークを排除し,他のタスクのリソースを活用できる。
論文 参考訳(メタデータ) (2024-04-27T16:02:55Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - POE: Process of Elimination for Multiple Choice Reasoning [19.65826015840337]
同様の2段階戦略は、複数の選択推論タスクにおいて、LMをより良くする可能性がある、と我々は主張する。
最初のステップでは、POEはそれぞれのオプションをスコアし、一見間違ったオプションを排除します。
2番目のステップでは、POEはこれらの間違ったオプションを隠蔽し、残りのオプションから最終的な予測を行う。
論文 参考訳(メタデータ) (2023-10-24T07:38:43Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Meta-Learning Approaches for a One-Shot Collective-Decision Aggregation:
Correctly Choosing how to Choose Correctly [0.7874708385247353]
単発の機械学習に基づくアグリゲーションアプローチを2つ提示する。
最初の予測では、集団の選択に関する複数の特徴が与えられた場合、どのアグリゲーション法が最善かが予想される。
2つ目は、どの決定が最適かを直接予測する。
論文 参考訳(メタデータ) (2022-04-03T15:06:59Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - Lookahead and Hybrid Sample Allocation Procedures for Multiple Attribute
Selection Decisions [0.9137554315375922]
本稿では、各測定値が1つの属性の1つのサンプルを1つの代替として生成する設定について考察する。
収集するサンプルが一定数与えられた場合、決定者は、どのサンプルを取得するかを決定し、測定を行い、属性の規模に関する事前の信念を更新し、代替案を選択する必要がある。
論文 参考訳(メタデータ) (2020-07-31T15:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。