論文の概要: The Non-Determinism of Small LLMs: Evidence of Low Answer Consistency in Repetition Trials of Standard Multiple-Choice Benchmarks
- arxiv url: http://arxiv.org/abs/2509.09705v1
- Date: Fri, 05 Sep 2025 17:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.829008
- Title: The Non-Determinism of Small LLMs: Evidence of Low Answer Consistency in Repetition Trials of Standard Multiple-Choice Benchmarks
- Title(参考訳): 小型LCMの非決定性:標準マルチコースベンチマークの反復試験における低回答整合性の証明
- Authors: Claudio Pinhanez, Paulo Cavalin, Cassia Sanctos, Marcelo Grave, Yago Primerano,
- Abstract要約: 本稿では,MMLU-Redux と MedQA のベンチマークから 10 回の質問に応答する,既知のオープンソース LLM について検討する。
その結果、一貫した解答が可能な質問の数はモデルによって大きく異なることがわかった。
中規模モデルの結果は、回答の一貫性のレベルがはるかに高いことを示している。
- 参考スコア(独自算出の注目度): 0.013048920509133805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores the consistency of small LLMs (2B-8B parameters) in answering multiple times the same question. We present a study on known, open-source LLMs responding to 10 repetitions of questions from the multiple-choice benchmarks MMLU-Redux and MedQA, considering different inference temperatures, small vs. medium models (50B-80B), finetuned vs. base models, and other parameters. We also look into the effects of requiring multi-trial answer consistency on accuracy and the trade-offs involved in deciding which model best provides both of them. To support those studies, we propose some new analytical and graphical tools. Results show that the number of questions which can be answered consistently vary considerably among models but are typically in the 50%-80% range for small models at low inference temperatures. Also, accuracy among consistent answers seems to reasonably correlate with overall accuracy. Results for medium-sized models seem to indicate much higher levels of answer consistency.
- Abstract(参考訳): この研究は、同じ質問に複数回答える際の小さな LLM (2B-8B パラメータ) の整合性について検討する。
本稿では,MMLU-Redux と MedQA のベンチマークから,異なる推論温度,小対中モデル (50B-80B) ,微調整されたベースモデル,その他のパラメータについて 10 回の質問に応答するオープンソース LLM について検討する。
また,マルチトライアル回答の整合性の要求が正確性に及ぼす影響や,どちらが最良かを判断する上でのトレードオフについても検討する。
これらの研究を支援するために,我々は新しい分析ツールとグラフィカルツールを提案する。
その結果、連続して答えられる質問の数はモデルによって大きく異なるが、典型的には推論温度の低い小さなモデルでは50%-80%の範囲にあることがわかった。
また、一貫した回答の正確さは、全体的な正確さと合理的に相関しているようである。
中型モデルの結果は、回答の一貫性のレベルがはるかに高いことを示している。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations [15.379345372327375]
エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。
我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
論文 参考訳(メタデータ) (2025-01-20T10:36:51Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.252597615544317]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Changing Answer Order Can Decrease MMLU Accuracy [18.774650080306944]
広範に使われている複数選択質問応答データセットMMLUにおける精度測定の堅牢性について検討する。
回答ラベルの内容をシャッフルすると、すべてのモデルがMMLUの精度を低下させるが、全てのモデルが等しく敏感であるわけではない。
論文 参考訳(メタデータ) (2024-06-27T18:21:32Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。