論文の概要: Truth-value judgment in language models: 'truth directions' are context sensitive
- arxiv url: http://arxiv.org/abs/2404.18865v2
- Date: Thu, 10 Jul 2025 15:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.096846
- Title: Truth-value judgment in language models: 'truth directions' are context sensitive
- Title(参考訳): 言語モデルにおける真理値判定:「真理方向」は文脈に敏感である
- Authors: Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen,
- Abstract要約: 大規模言語モデルは、文の真理を予測する方向を含む。
複数の手法がそのような方向を復元し、モデルの「知識」や「信条」を明らかにすると説明されるプローブを構築する。
本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。
- 参考スコア(独自算出の注目度): 2.324913904215885
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent work has demonstrated that the latent spaces of large language models (LLMs) contain directions predictive of the truth of sentences. Multiple methods recover such directions and build probes that are described as uncovering a model's "knowledge" or "beliefs". We investigate this phenomenon, looking closely at the impact of context on the probes. Our experiments establish where in the LLM the probe's predictions are (most) sensitive to the presence of related sentences, and how to best characterize this kind of sensitivity. We do so by measuring different types of consistency errors that occur after probing an LLM whose inputs consist of hypotheses preceded by (negated) supporting and contradicting sentences. We also perform a causal intervention experiment, investigating whether moving the representation of a premise along these truth-value directions influences the position of an entailed or contradicted sentence along that same direction. We find that the probes we test are generally context sensitive, but that contexts which should not affect the truth often still impact the probe outputs. Our experiments show that the type of errors depend on the layer, the model, and the kind of data. Finally, our results suggest that truth-value directions are causal mediators in the inference process that incorporates in-context information.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)の潜在空間には、文の真理を予測する方向が含まれていることが示されている。
複数の手法がそのような方向を復元し、モデルの「知識」や「信条」を明らかにすると説明されるプローブを構築する。
本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。
我々の実験は、LLMにおいて、プローブの予測は(ほとんど)関連する文の存在に敏感であり、どのようにしてこの種の感度を最も特徴付けるかを確立する。
文を(否定的に)サポートし矛盾させる仮説から入力を導出した後、異なる種類の一貫性エラーを計測する。
我々はまた、これらの真理値方向に沿った前提の表現の移動が、同じ方向に沿って関連する文や矛盾した文の位置に影響を与えるかどうかを調査する因果介入実験を行った。
テスト対象のプローブは一般的にコンテキストに敏感だが、真実に影響を与えないようなコンテキストは、プローブの出力に影響を与えていることが多い。
実験の結果,エラーの種類は層,モデル,データの種類によって異なることがわかった。
最後に,本研究の結果から,真理値方向は文脈内情報を含む推論過程における因果媒介者であることが示唆された。
関連論文リスト
- Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。
信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。
確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-09-30T10:23:13Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Is Probing All You Need? Indicator Tasks as an Alternative to Probing
Embedding Spaces [19.4968960182412]
本研究では, 学習不能なタスクに対して, 特定の特性が存在する場合の埋め込み空間を問合せする「指示タスク」という用語を導入する。
適切な指標を適用すれば、プローブと比較して、取得・削除された情報のより正確な画像が得られることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:08:12Z) - Uncertain Evidence in Probabilistic Models and Stochastic Simulators [80.40110074847527]
我々は、不確実性を伴う観測を伴う確率論的モデルにおいて、ベイズ的推論を行うという問題について考察する。
我々は、不確実な証拠をどう解釈するかを探求し、潜伏変数の推論に関連する適切な解釈の重要性を拡大する。
我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-10-21T20:32:59Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。