論文の概要: Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs
- arxiv url: http://arxiv.org/abs/2407.04173v1
- Date: Thu, 4 Jul 2024 22:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:00:44.256534
- Title: Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs
- Title(参考訳): タブラルLLMにおけるモデル乗法下における予測整合性の定量化
- Authors: Faisal Hamman, Pasan Dissanayake, Saumitra Mishra, Freddy Lecue, Sanghamitra Dutta,
- Abstract要約: 微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
- 参考スコア(独自算出の注目度): 10.494477811252034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) on limited tabular data for classification tasks can lead to \textit{fine-tuning multiplicity}, where equally well-performing models make conflicting predictions on the same inputs due to variations in the training process (i.e., seed, random weight initialization, retraining on additional or deleted samples). This raises critical concerns about the robustness and reliability of Tabular LLMs, particularly when deployed for high-stakes decision-making, such as finance, hiring, education, healthcare, etc. This work formalizes the challenge of fine-tuning multiplicity in Tabular LLMs and proposes a novel metric to quantify the robustness of individual predictions without expensive model retraining. Our metric quantifies a prediction's stability by analyzing (sampling) the model's local behavior around the input in the embedding space. Interestingly, we show that sampling in the local neighborhood can be leveraged to provide probabilistic robustness guarantees against a broad class of fine-tuned models. By leveraging Bernstein's Inequality, we show that predictions with sufficiently high robustness (as defined by our measure) will remain consistent with high probability. We also provide empirical evaluation on real-world datasets to support our theoretical results. Our work highlights the importance of addressing fine-tuning instabilities to enable trustworthy deployment of LLMs in high-stakes and safety-critical applications.
- Abstract(参考訳): 分類タスクの限られた表データ上での細調整された大きな言語モデル(LLM)は、トレーニングプロセスのバリエーション(シード、ランダムウェイトの初期化、追加または削除されたサンプルの再訓練など)によって、同じ入力に対して矛盾する予測を行うような、等しく良好なパフォーマンスのモデルである \textit{fine-tuning multiplicity} につながる。
このことは、特に金融、雇用、教育、医療など、高い意思決定のために配備されたタブラルLSMの堅牢性と信頼性に対する批判的な懸念を提起する。
本研究は,タブラルLLMにおける微調整多重性の課題を定式化し,高価なモデル再訓練を伴わずに個々の予測の堅牢性を定量化するための新しい指標を提案する。
我々の計量は、埋め込み空間における入力の周りのモデルの局所的挙動を解析(サンプリング)することにより、予測の安定性を定量化する。
興味深いことに、局所的な地区でのサンプリングは、広範囲の微調整モデルに対して確率論的堅牢性を保証するために活用できることが示されている。
ベルンシュタインの不等式を活用することで、(我々の測度によって定義されるように)十分に高い堅牢性を持つ予測が高い確率で一定であることを示す。
また、実世界のデータセットに関する実証的な評価を行い、理論的結果を支持する。
我々の研究は、高度で安全に重要なアプリケーションにおいて、LLMの信頼性の高い展開を可能にするための微調整不安定性に対処することの重要性を強調している。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文 参考訳(メタデータ) (2024-05-22T17:13:49Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は、そのような正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。