論文の概要: LLM Stability: A detailed analysis with some surprises
- arxiv url: http://arxiv.org/abs/2408.04667v2
- Date: Thu, 12 Sep 2024 19:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 22:38:12.957888
- Title: LLM Stability: A detailed analysis with some surprises
- Title(参考訳): LLMの安定性:いくつかのサプライズを伴う詳細な分析
- Authors: Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin,
- Abstract要約: 我々は,5つの同一実行を伴う8つの共通タスクにまたがる6つのLLMを決定論的に構成した。
LLMは、すべてのタスクに対して繰り返し可能な精度を提供しない。
安定度に着目した指標として,Nにおける総契約レートのTAARr@Nと,解析された回答のTARa@Nを紹介する。
- 参考スコア(独自算出の注目度): 1.3127753416081502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs, but we have been unable to find work that evaluates LLM stability as the main objective. In our study of 6 deterministically configured LLMs across 8 common tasks with 5 identical runs, we see accuracy variations up to 10\%. In addition, no LLM consistently delivers repeatable accuracy across all tasks. We also show examples of variation that are not normally distributed and compare configurations with zero-shot/few-shot prompting and fine-tuned examples. To better quantify what is going on, we introduce metrics focused on stability: TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement over parsed-out answers. We suggest that stability metrics be integrated into leader boards and research results going forward.
- Abstract(参考訳): LLM(大規模言語モデル)の実践者は、出力が同じ入力に対して異なることによく気づくが、LLMの安定性を主目的として評価する作業は見つからなかった。
本研究は,5つの同一実行を含む8つの共通タスクに対して,決定的に構成された6つのLSMについて検討し,最大10倍の精度の変動が見られた。
加えて、全てのタスクに対して繰り返し可能な精度を提供するLLMは存在しない。
また、通常分布しないバリエーションの例を示し、設定をゼロショット/フェーショットプロンプトや微調整例と比較する。
現状の定量化のために、我々は安定性に焦点を当てたメトリクスを導入している。Nでの合意率のトータルはNで、TARa@Nでパースアウトされた回答のトータルはTARa@N。
安定性の指標をリーダボードと研究結果に統合することを提案します。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - The ICL Consistency Test [14.569770617709073]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。
素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。
ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
論文 参考訳(メタデータ) (2023-12-08T10:22:43Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。