論文の概要: On the attribution of confidence to large language models
- arxiv url: http://arxiv.org/abs/2407.08388v1
- Date: Thu, 11 Jul 2024 10:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:49:33.803725
- Title: On the attribution of confidence to large language models
- Title(参考訳): 大規模言語モデルに対する信頼感の寄与について
- Authors: Geoff Keeling, Winnie Street,
- Abstract要約: クレデンスは命題の信頼度に対応する精神状態である。
信条の帰属に関する理論的根拠は不明である。
LLMがクリーデンスを持つとしても、クレデンス属性は一般的に偽である可能性は明らかである。
- 参考スコア(独自算出の注目度): 0.1478468781294373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Credences are mental states corresponding to degrees of confidence in propositions. Attribution of credences to Large Language Models (LLMs) is commonplace in the empirical literature on LLM evaluation. Yet the theoretical basis for LLM credence attribution is unclear. We defend three claims. First, our semantic claim is that LLM credence attributions are (at least in general) correctly interpreted literally, as expressing truth-apt beliefs on the part of scientists that purport to describe facts about LLM credences. Second, our metaphysical claim is that the existence of LLM credences is at least plausible, although current evidence is inconclusive. Third, our epistemic claim is that LLM credence attributions made in the empirical literature on LLM evaluation are subject to non-trivial sceptical concerns. It is a distinct possibility that even if LLMs have credences, LLM credence attributions are generally false because the experimental techniques used to assess LLM credences are not truth-tracking.
- Abstract(参考訳): クレデンスは命題の信頼度に対応する精神状態である。
大規模言語モデル (LLMs) へのクレデンスの寄与は, LLM評価に関する実証文献においてよく見られる。
しかし, LLMクレデンス属性の理論的基礎は明らかでない。
我々は3つの主張を擁護する。
まず、私たちのセマンティックな主張は、LSMクレデンス属性は(少なくとも一般的には)文字通りに解釈され、LSMクレデンスに関する事実を説明するために科学者の一部に真実に適応した信念を表すものである、ということです。
第二に、我々のメタ物理的な主張は、LCMクレーデンスの存在は少なくとも確実であるが、現在の証拠は不確定である。
第3に,LSM評価に関する実証文献におけるLCMクレデンス属性は,非自明な感覚的関心事である。
LLMにクレーデンスがあるとしても、LCMクレーデンスを評価する実験技術は真理追跡ではないため、LCMクレーデンス属性が一般的に偽である可能性は明らかである。
関連論文リスト
- Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。
LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。
本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文 参考訳(メタデータ) (2024-06-22T03:32:09Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space [31.769428095250912]
大規模言語モデル(LLM)は、正しい知識を知っていても、時に非現実的な応答を生成する。
LLMの真偽を活性化する推論時間介入手法であるTrathXを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:45:04Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Why LLMs Hallucinate, and How to Get (Evidential) Closure: Perceptual,
Intensional, and Extensional Learning for Faithful Natural Language
Generation [0.0]
LLMは、その出力がそれらが証拠を持つ主張と同義であることに制約されないため、幻覚的であることを示す。
次に, LLM を制約して, 明らかな閉包を満たす出力を生成する方法を示す。
論文 参考訳(メタデータ) (2023-10-23T20:35:52Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Position: Key Claims in LLM Research Have a Long Tail of Footnotes [81.14898541318198]
我々は、Large Language Models(LLMs)の動作定義を持っていないと論じる。
それらの特性に関する5つの共通主張を批判的に検討する。
今後の研究の方向性とフレーミングについて提案する。
論文 参考訳(メタデータ) (2023-08-14T13:00:53Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。