論文の概要: LLM Stability: A detailed analysis with some surprises
- arxiv url: http://arxiv.org/abs/2408.04667v2
- Date: Thu, 12 Sep 2024 19:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 22:38:12.957888
- Title: LLM Stability: A detailed analysis with some surprises
- Title(参考訳): LLMの安定性:いくつかのサプライズを伴う詳細な分析
- Authors: Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin,
- Abstract要約: 我々は,5つの同一実行を伴う8つの共通タスクにまたがる6つのLLMを決定論的に構成した。
LLMは、すべてのタスクに対して繰り返し可能な精度を提供しない。
安定度に着目した指標として,Nにおける総契約レートのTAARr@Nと,解析された回答のTARa@Nを紹介する。
- 参考スコア(独自算出の注目度): 1.3127753416081502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs, but we have been unable to find work that evaluates LLM stability as the main objective. In our study of 6 deterministically configured LLMs across 8 common tasks with 5 identical runs, we see accuracy variations up to 10\%. In addition, no LLM consistently delivers repeatable accuracy across all tasks. We also show examples of variation that are not normally distributed and compare configurations with zero-shot/few-shot prompting and fine-tuned examples. To better quantify what is going on, we introduce metrics focused on stability: TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement over parsed-out answers. We suggest that stability metrics be integrated into leader boards and research results going forward.
- Abstract(参考訳): LLM(大規模言語モデル)の実践者は、出力が同じ入力に対して異なることによく気づくが、LLMの安定性を主目的として評価する作業は見つからなかった。
本研究は,5つの同一実行を含む8つの共通タスクに対して,決定的に構成された6つのLSMについて検討し,最大10倍の精度の変動が見られた。
加えて、全てのタスクに対して繰り返し可能な精度を提供するLLMは存在しない。
また、通常分布しないバリエーションの例を示し、設定をゼロショット/フェーショットプロンプトや微調整例と比較する。
現状の定量化のために、我々は安定性に焦点を当てたメトリクスを導入している。Nでの合意率のトータルはNで、TARa@Nでパースアウトされた回答のトータルはTARa@N。
安定性の指標をリーダボードと研究結果に統合することを提案します。
関連論文リスト
- Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - One vs. Many: Comprehending Accurate Information from Multiple Erroneous and Inconsistent AI Generations [47.669923625184644]
大規模言語モデル(LLM)は非決定論的であり、同じ入力は異なる出力を生成することができる。
本研究では、ユーザがAIモデルをどのように認識し、複数の、潜在的に一貫性のない出力を受け取る際に生成された情報を理解するかを検討する。
論文 参考訳(メタデータ) (2024-05-09T07:12:45Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Embers of Autoregression: Understanding Large Language Models Through
the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。
11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。
我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文 参考訳(メタデータ) (2023-09-24T13:35:28Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。