論文の概要: The Trilemma of Truth in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.23921v1
- Date: Mon, 30 Jun 2025 14:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.108477
- Title: The Trilemma of Truth in Large Language Models
- Title(参考訳): 大規模言語モデルにおける真理のトレンマ
- Authors: Germans Savcisens, Tina Eliassi-Rad,
- Abstract要約: 大規模言語モデル(LLM)の妥当性を検証するための2つの共通手法について検討する。
sAwMILは, LLMの内部アクティベーションを利用して, 文を真, 偽, 両方に分離する探索手法である。
sAwMILを16のオープンソースLCMの5つの妥当性基準で評価した。
- 参考スコア(独自算出の注目度): 1.62933895796838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We often attribute human characteristics to large language models (LLMs) and claim that they "know" certain things. LLMs have an internal probabilistic knowledge that represents information retained during training. How can we assess the veracity of this knowledge? We examine two common methods for probing the veracity of LLMs and discover several assumptions that are flawed. To address these flawed assumptions, we introduce sAwMIL (short for Sparse Aware Multiple-Instance Learning), a probing method that utilizes the internal activations of LLMs to separate statements into true, false, and neither. sAwMIL is based on multiple-instance learning and conformal prediction. We evaluate sAwMIL on 5 validity criteria across 16 open-source LLMs, including both default and chat-based variants, as well as on 3 new datasets. Among the insights we provide are: (1) the veracity signal is often concentrated in the third quarter of an LLM's depth; (2) truth and falsehood signals are not always symmetric; (3) linear probes perform better on chat models than on default models; (4) nonlinear probes may be required to capture veracity signals for some LLMs with reinforcement learning from human feedback or knowledge distillation; and (5) LLMs capture a third type of signal that is distinct from true and false and is neither true nor false. These findings provide a reliable method for verifying what LLMs "know" and how certain they are of their probabilistic internal knowledge.
- Abstract(参考訳): 私たちはしばしば、人間の特徴を大きな言語モデル(LLM)に当てはめ、あることを「知っている」と主張する。
LLMには、トレーニング中に保持される情報を表す内部確率的知識がある。
この知識の正確性をどのように評価するか。
本稿では,LLMの妥当性を検証するための2つの一般的な手法について検討し,欠陥のあるいくつかの仮定を明らかにする。
これらの問題に対処するために, sAwMIL (Sparse Aware Multiple-Instance Learningの略) を導入する。
sAwMILはマルチインスタンス学習と共形予測に基づいている。
sAwMILを16のオープンソースLCMの5つの妥当性基準で評価した。
1) 真偽信号はLLMの深さの4分の1に集中している場合が多いこと,(2) 真偽信号は必ずしも対称ではないこと,(3) 線形プローブはデフォルトモデルよりもチャットモデルの方が優れていること,(4) 非線形プローブは人間のフィードバックや知識の蒸留から強化学習を施した一部のLLMの精度信号を捉える必要があること,(5) LLMは真偽と異なる第3タイプの信号を捉えていること,などです。
これらの知見は、LLMが「知っている」ことや、その確率論的内部知識がどれほど確かであるかを検証するための信頼性の高い方法を提供する。
関連論文リスト
- Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。
BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。
複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文 参考訳(メタデータ) (2024-06-11T05:21:37Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。