Fugu-MT 論文翻訳(概要): LLM Stability: A detailed analysis with some surprises

論文の概要: LLM Stability: A detailed analysis with some surprises

arxiv url: http://arxiv.org/abs/2408.04667v1
Date: Tue, 6 Aug 2024 16:43:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 17:39:53.768106
Title: LLM Stability: A detailed analysis with some surprises
Title（参考訳）: LLMの安定性:いくつかのサプライズを伴う詳細な分析
Authors: Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin,
Abstract要約: 評価されたLSMは、生の出力レベルでは、まれに決定論的である。パースされた出力/アンサーレベルでは決定論的だが、同じデータ入力を持つ5回の再実行で100%安定することはめったにない。
参考スコア（独自算出の注目度）: 1.3127753416081502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A concerning property of our nearly magical LLMs involves the variation of results given the exact same input and deterministic hyper-parameters. While AI has always had a certain level of noisiness from inputs outside of training data, we have generally had deterministic results for any particular input; that is no longer true. While most LLM practitioners are "in the know", we are unaware of any work that attempts to quantify current LLM stability. We suspect no one has taken the trouble because it is just too boring a paper to execute and write. But we have done it and there are some surprises. What kinds of surprises? The evaluated LLMs are rarely deterministic at the raw output level; they are much more deterministic at the parsed output/answer level but still rarely 100% stable across 5 re-runs with same data input. LLM accuracy variation is not normally distributed. Stability varies based on task.
Abstract（参考訳）: 我々のほぼ魔法のLSMの関連する性質は、全く同じ入力と決定論的ハイパーパラメータから得られる結果の変化である。 AIは常に、トレーニングデータ以外の入力から特定のノイズレベルを持つが、私たちは一般的に、特定の入力に対して決定論的結果を得た。ほとんどのLLM実践者は「知る限りで」いるが、現在のLLMの安定性を定量化しようとする作業には気づいていない。紙を書いて書くのに退屈すぎるので、誰も問題に手を染めていないのではないでしょうか。しかし、私たちはそれを実行し、いくつかのサプライズがあります。どんなサプライズですか? 評価されたLSMは、生の出力レベルでは決定論的であり、解析された出力/入出力レベルでは決定論的であるが、同じデータ入力を持つ5回の再実行において100%安定であることはめったにない。 LLMの精度の変動は通常分布しない。安定性はタスクによって異なる。

関連論文リスト

Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions [1.1883838320818292]
大規模言語モデル(LLM)は、候補スクリーニングの合理化を約束するが、精度とアルゴリズムバイアスに関する深刻な懸念も引き起こす。いくつかの最先端の基盤的LCMをベンチマークし、ジョブ候補マッチングのためのドメイン固有の採用モデル(Match Score)と比較する。実験の結果,Match Score は汎用 LLM よりも精度(ROC AUC 0.85 対 0.77 )が優れており,人口集団間でより公平な結果が得られた。
論文参考訳（メタデータ） (2025-07-02T19:02:18Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文参考訳（メタデータ） (2024-10-21T06:11:38Z)
Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities [8.1022073999821]
いくつかの決定論的タスクにおけるGPT-4の性能の測定について述べる。タスク・プロンプトや入力集団における一見自明な修正は、サンプリング効果によって説明できるよりもはるかに大きな差をもたらすことが判明した。
論文参考訳（メタデータ） (2024-09-11T21:48:33Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
The Curious Case of Class Accuracy Imbalance in LLMs: Post-hoc Debiasing via Nonlinear Integer Programming [12.287692969438169]
大規模言語モデル(LLM)は優れた知識ベースであるが、テキスト分類における全てのクラスで同等に機能するのに苦労する。本稿では,LLMにおけるクラス精度の不均衡の事例について考察する。バイアス識別の難しさと再トレーニングの到達性の難しさを克服するため,出力確率のみを用いたポストホックバランスクラスの精度について検討した。
論文参考訳（メタデータ） (2024-05-13T10:30:33Z)
The ICL Consistency Test [14.569770617709073]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
論文参考訳（メタデータ） (2023-12-08T10:22:43Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。 ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文参考訳（メタデータ） (2023-05-24T06:55:09Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文参考訳（メタデータ） (2022-04-29T19:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。