論文の概要: Exploring the Potential for Large Language Models to Demonstrate Rational Probabilistic Beliefs
- arxiv url: http://arxiv.org/abs/2504.13644v1
- Date: Fri, 18 Apr 2025 11:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:53:28.370381
- Title: Exploring the Potential for Large Language Models to Demonstrate Rational Probabilistic Beliefs
- Title(参考訳): 大規模言語モデルによる合理的確率的信念の実証の可能性を探る
- Authors: Gabriel Freedman, Francesca Toni,
- Abstract要約: 大規模言語モデル(LLM)の現在のバージョンには,確率論的信念の合理的かつ一貫性のある表現が欠如していることが示されている。
確率論的推論の基本的な性質に固執するLLMの能力を測定するために, 不確実性定量化のための確立された手法を適用した。
- 参考スコア(独自算出の注目度): 12.489784979345654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advances in the general capabilities of large language models (LLMs) have led to their use for information retrieval, and as components in automated decision systems. A faithful representation of probabilistic reasoning in these models may be essential to ensure trustworthy, explainable and effective performance in these tasks. Despite previous work suggesting that LLMs can perform complex reasoning and well-calibrated uncertainty quantification, we find that current versions of this class of model lack the ability to provide rational and coherent representations of probabilistic beliefs. To demonstrate this, we introduce a novel dataset of claims with indeterminate truth values and apply a number of well-established techniques for uncertainty quantification to measure the ability of LLM's to adhere to fundamental properties of probabilistic reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の汎用能力の進歩は、情報検索や自動決定システムにおけるコンポーネントとしての利用に繋がった。
これらのモデルにおける確率的推論の忠実な表現は、これらのタスクにおいて信頼できる、説明可能な、効果的なパフォーマンスを保証するために不可欠である。
従来の研究は、LLMが複雑な推論とよく校正された不確かさの定量化を行うことができることを示唆していたが、このモデルの現在のバージョンは確率的信念の合理的かつ一貫性のある表現を提供する能力が欠如していることが判明した。
そこで本研究では,不確定な真理値を持つクレームの新たなデータセットを導入し,不確実性定量化のための多くの確立された手法を適用して,確率論的推論の基本的な性質に準拠するLLMの能力を測定する。
関連論文リスト
- Can LLMs Assist Expert Elicitation for Probabilistic Causal Modeling? [0.0]
本研究では,構造化因果知識を抽出するための人間専門家の勧誘の代替として,Large Language Models (LLMs) の可能性について検討する。
LLMは因果構造、特にベイズネットワーク(BN)を生成し、従来の統計手法と比較した。
LLMが生成したBNは、専門家によって導かれ統計的に生成されたBNよりも低いエントロピーを示し、予測の信頼性と精度が示唆された。
論文 参考訳(メタデータ) (2025-04-14T16:45:52Z) - FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.171510592986735]
本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。
ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-25T19:01:48Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Verbalized Probabilistic Graphical Modeling [8.524824578426962]
本稿では,自然言語における確率的グラフモデル (PGM) の重要な原理をシミュレートするために,動詞型確率的グラフィカルモデリング (vPGM) を提案する。
vPGMは専門家主導のモデル設計をバイパスし、仮定やデータ不足のシナリオに適している。
以上の結果から,本モデルは信頼性校正とテキスト生成品質を効果的に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。
まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文 参考訳(メタデータ) (2024-05-21T15:13:12Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Reasoning over Uncertain Text by Generative Large Language Models [18.983753573277596]
本稿では,大言語モデル (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。
LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference dataset (BLInD)を紹介する。
我々は,Pythonのコード,確率的アルゴリズム,確率論的論理プログラミングなど,問題を異なる形式的表現にマッピングするいくつかのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-02-14T23:05:44Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - LaPLACE: Probabilistic Local Model-Agnostic Causal Explanations [1.0370398945228227]
本稿では,機械学習モデルに対する確率論的原因・効果説明を提供するLaPLACE-Explainerを紹介する。
LaPLACE-Explainerコンポーネントはマルコフ毛布の概念を利用して、関連する特徴と非関連する特徴の間の統計的境界を確立する。
提案手法は,LIME と SHAP の局所的精度と特徴の整合性の観点から,因果的説明と性能を向上する。
論文 参考訳(メタデータ) (2023-10-01T04:09:59Z) - Model-free generalized fiducial inference [0.0]
本稿では,不正確な確率的予測推定のためのモデルフリー統計フレームワークの提案と開発を行う。
このフレームワークは、タイプ1エラーの有限サンプル制御を提供する予測セットの形式での不確実性定量化を促進する。
モデルフリー不正確なフレームワークに対する正確な確率近似の理論的および経験的特性について考察する。
論文 参考訳(メタデータ) (2023-07-24T01:58:48Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。