論文の概要: BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.12494v1
- Date: Thu, 18 Apr 2024 20:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:44:29.245646
- Title: BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models
- Title(参考訳): BIRD:大規模言語モデルのための信頼できるベイズ推論フレームワーク
- Authors: Yu Feng, Ben Zhou, Weidong Lin, Dan Roth,
- Abstract要約: 大規模言語モデルに対するBIRDと呼ばれるベイズ推論フレームワークを提案する。
BIRDはモデル決定のための制御可能かつ解釈可能な確率推定を提供する。
実験の結果、BIRDは65%以上の人の判断と一致した確率推定を生成することがわかった。
- 参考スコア(独自算出の注目度): 52.46248487458641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models primarily rely on inductive reasoning for decision making. This results in unreliable decisions when applied to real-world tasks that often present incomplete contexts and conditions. Thus, accurate probability estimation and appropriate interpretations are required to enhance decision-making reliability. In this paper, we propose a Bayesian inference framework called BIRD for large language models. BIRD provides controllable and interpretable probability estimation for model decisions, based on abductive factors, LLM entailment, as well as learnable deductive Bayesian modeling. Experiments show that BIRD produces probability estimations that align with human judgments over 65% of the time using open-sourced Llama models, outperforming the state-of-the-art GPT-4 by 35%. We also show that BIRD can be directly used for trustworthy decision making on many real-world applications.
- Abstract(参考訳): 大規模言語モデルは、主に意思決定の帰納的推論に依存している。
これは、しばしば不完全なコンテキストや条件を示す現実世界のタスクに適用された場合、信頼できない決定をもたらす。
したがって、意思決定の信頼性を高めるためには、正確な確率推定と適切な解釈が必要である。
本稿では,大規模言語モデルに対するBIRDというベイズ推論フレームワークを提案する。
BIRDは、帰納的要因に基づくモデル決定のための制御可能かつ解釈可能な確率推定、LLMエンテーメント、および学習可能な導出的ベイズモデルを提供する。
実験の結果、BIRDはオープンソースのLlamaモデルを用いて、人間の判断と一致した確率を65%以上生成し、最先端のGPT-4を35%上回った。
また,BIRDは実世界の多くのアプリケーションにおいて信頼性の高い意思決定に利用できることを示す。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Probabilistic Medical Predictions of Large Language Models [4.825666689707888]
LLM(Large Language Models)は、迅速な工学を通して臨床応用に有意な可能性を証明している。
LLMの数値推論における制限は、これらのテキスト生成確率の信頼性に関する懸念を引き起こす。
5つの医学データセットにまたがる6つの高度なオープンソースLSMを用いて実験したところ、明示的確率の性能は暗黙的確率よりも一貫して低いことがわかった。
論文 参考訳(メタデータ) (2024-08-21T03:47:17Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Handling Epistemic and Aleatory Uncertainties in Probabilistic Circuits [18.740781076082044]
確率的推論の大規模クラスを扱うアプローチの背後にある独立性の仮定を克服する手法を提案する。
ベイズ学習のアルゴリズムは、完全な観察にもかかわらず、スパースから提供します。
そのような回路の各リーフは、不確実な確率を表すエレガントなフレームワークを提供するベータ分散ランダム変数でラベル付けされています。
論文 参考訳(メタデータ) (2021-02-22T10:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。