Fugu-MT 論文翻訳(概要): LLM Stability: A detailed analysis with some surprises

論文の概要: LLM Stability: A detailed analysis with some surprises

arxiv url: http://arxiv.org/abs/2408.04667v2
Date: Thu, 12 Sep 2024 19:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 22:38:12.957888
Title: LLM Stability: A detailed analysis with some surprises
Title（参考訳）: LLMの安定性:いくつかのサプライズを伴う詳細な分析
Authors: Berk Atil, Alexa Chittams, Liseng Fu, Ferhan Ture, Lixinyu Xu, Breck Baldwin,
Abstract要約: 我々は,5つの同一実行を伴う8つの共通タスクにまたがる6つのLLMを決定論的に構成した。 LLMは、すべてのタスクに対して繰り返し可能な精度を提供しない。安定度に着目した指標として,Nにおける総契約レートのTAARr@Nと,解析された回答のTARa@Nを紹介する。
参考スコア（独自算出の注目度）: 1.3127753416081502
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs, but we have been unable to find work that evaluates LLM stability as the main objective. In our study of 6 deterministically configured LLMs across 8 common tasks with 5 identical runs, we see accuracy variations up to 10\%. In addition, no LLM consistently delivers repeatable accuracy across all tasks. We also show examples of variation that are not normally distributed and compare configurations with zero-shot/few-shot prompting and fine-tuned examples. To better quantify what is going on, we introduce metrics focused on stability: TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement over parsed-out answers. We suggest that stability metrics be integrated into leader boards and research results going forward.
Abstract（参考訳）: LLM(大規模言語モデル)の実践者は、出力が同じ入力に対して異なることによく気づくが、LLMの安定性を主目的として評価する作業は見つからなかった。本研究は,5つの同一実行を含む8つの共通タスクに対して,決定的に構成された6つのLSMについて検討し,最大10倍の精度の変動が見られた。加えて、全てのタスクに対して繰り返し可能な精度を提供するLLMは存在しない。また、通常分布しないバリエーションの例を示し、設定をゼロショット/フェーショットプロンプトや微調整例と比較する。現状の定量化のために、我々は安定性に焦点を当てたメトリクスを導入している。Nでの合意率のトータルはNで、TARa@Nでパースアウトされた回答のトータルはTARa@N。安定性の指標をリーダボードと研究結果に統合することを提案します。

関連論文リスト

Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions [1.1883838320818292]
大規模言語モデル(LLM)は、候補スクリーニングの合理化を約束するが、精度とアルゴリズムバイアスに関する深刻な懸念も引き起こす。いくつかの最先端の基盤的LCMをベンチマークし、ジョブ候補マッチングのためのドメイン固有の採用モデル(Match Score)と比較する。実験の結果,Match Score は汎用 LLM よりも精度(ROC AUC 0.85 対 0.77 )が優れており,人口集団間でより公平な結果が得られた。
論文参考訳（メタデータ） (2025-07-02T19:02:18Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文参考訳（メタデータ） (2024-10-21T06:11:38Z)
Can We Count on LLMs? The Fixed-Effect Fallacy and Claims of GPT-4 Capabilities [8.1022073999821]
いくつかの決定論的タスクにおけるGPT-4の性能の測定について述べる。タスク・プロンプトや入力集団における一見自明な修正は、サンプリング効果によって説明できるよりもはるかに大きな差をもたらすことが判明した。
論文参考訳（メタデータ） (2024-09-11T21:48:33Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文参考訳（メタデータ） (2024-07-15T06:12:17Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
The Curious Case of Class Accuracy Imbalance in LLMs: Post-hoc Debiasing via Nonlinear Integer Programming [12.287692969438169]
大規模言語モデル(LLM)は優れた知識ベースであるが、テキスト分類における全てのクラスで同等に機能するのに苦労する。本稿では,LLMにおけるクラス精度の不均衡の事例について考察する。バイアス識別の難しさと再トレーニングの到達性の難しさを克服するため,出力確率のみを用いたポストホックバランスクラスの精度について検討した。
論文参考訳（メタデータ） (2024-05-13T10:30:33Z)
The ICL Consistency Test [14.569770617709073]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
論文参考訳（メタデータ） (2023-12-08T10:22:43Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。 ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文参考訳（メタデータ） (2023-05-24T06:55:09Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文参考訳（メタデータ） (2022-04-29T19:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。