論文の概要: Non-Determinism of "Deterministic" LLM Settings
- arxiv url: http://arxiv.org/abs/2408.04667v4
- Date: Tue, 01 Apr 2025 02:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 10:23:21.414165
- Title: Non-Determinism of "Deterministic" LLM Settings
- Title(参考訳): 決定論的」LLM設定の非決定論
- Authors: Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin,
- Abstract要約: 本研究では,10ランにまたがる8つの共通タスクに適用した場合に決定論的に設定された5つのLSMにおける非決定性について検討する。
自然に発生する実行に最大15%の精度のばらつきがあり、最高のパフォーマンスと最悪のパフォーマンスのギャップがある。
我々は,決定論の定量化に重点を置いた指標,Nでの合意率の総和はNで,TARa@Nで解析された回答の総和率はTARa@Nで紹介する。
- 参考スコア(独自算出の注目度): 7.008076013373744
- License:
- Abstract: LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs under settings expected to be deterministic. Yet the questions of how pervasive this is, and with what impact on results, have not to our knowledge been systematically investigated. We investigate non-determinism in five LLMs configured to be deterministic when applied to eight common tasks in across 10 runs, in both zero-shot and few-shot settings. We see accuracy variations up to 15% across naturally occurring runs with a gap of best possible performance to worst possible performance up to 70%. In fact, none of the LLMs consistently delivers repeatable accuracy across all tasks, much less identical output strings. Sharing preliminary results with insiders has revealed that non-determinism perhaps essential to the efficient use of compute resources via co-mingled data in input buffers so this issue is not going away anytime soon. To better quantify our observations, we introduce metrics focused on quantifying determinism, TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement rate of parsed-out answers. Our code and data are publicly available at http://github.com/REDACTED.
- Abstract(参考訳): LLM(大規模言語モデル)の実践者は一般的に、決定論的であると期待される設定の下では、出力が同じ入力に対して変化する可能性があることに気付く。
しかし、これがどの程度広く、そして結果にどんな影響を及ぼすかという質問は、我々の知識を体系的に調査していない。
ゼロショット設定と少数ショット設定の両方において,10ランにまたがる8つの共通タスクに適用した場合に決定論的に設定された5つのLDMにおける非決定性について検討した。
自然に発生する実行に最大15%の精度のばらつきがあり、最高のパフォーマンスと最悪のパフォーマンスのギャップがある。
実際、どのLLMも全てのタスクに対して連続的な精度を提供しておらず、出力文字列が全く同じではない。
インサイダーで予備的な結果を共有することで、入力バッファに混在するデータを通じて計算リソースを効率的に利用するためには、非決定性が不可欠であることが明らかになったため、この問題はすぐに消えることはない。
本研究では, 決定論の定量化に重点を置いた指標, Nにおける合意率のトータルは生出力上でのTARr@N, 解析された回答の総合意率のTARa@Nを紹介する。
私たちのコードとデータはhttp://github.com/REDACTED.comで公開されています。
関連論文リスト
- Perceived Confidence Scoring for Data Annotation with Zero-Shot LLMs [2.4749083496491684]
メタモルフィックリレーショナル(MR)を活用して入力の分類におけるLLMの信頼性を評価するPCS(Perceived Confidence Scoring)を導入する。
PCSはLlama-3-8B-Instruct (4.96%)とMistral-7B-Instruct-v0.3 (10.52%)のゼロショット精度を大幅に改善し、Gemma-2-9b-itは9.39%上昇した。
論文 参考訳(メタデータ) (2025-02-11T02:25:44Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。
G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。
本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - The ICL Consistency Test [14.569770617709073]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。
素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。
ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
論文 参考訳(メタデータ) (2023-12-08T10:22:43Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。