論文の概要: Truth-value judgment in language models: belief directions are context sensitive
- arxiv url: http://arxiv.org/abs/2404.18865v1
- Date: Mon, 29 Apr 2024 16:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.973132
- Title: Truth-value judgment in language models: belief directions are context sensitive
- Title(参考訳): 言語モデルにおける真の価値判定:信念の方向は文脈に敏感である
- Authors: Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen,
- Abstract要約: 大きな言語モデルの潜在空間は、文の真理を予測する方向を含む。
複数の手法がそのような方向を復元し、モデルの"知識"や"信条"に到達したと説明されるプローブを構築する。
本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。
- 参考スコア(独自算出の注目度): 2.324913904215885
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent work has demonstrated that the latent spaces of large language models (LLMs) contain directions predictive of the truth of sentences. Multiple methods recover such directions and build probes that are described as getting at a model's "knowledge" or "beliefs". We investigate this phenomenon, looking closely at the impact of context on the probes. Our experiments establish where in the LLM the probe's predictions can be described as being conditional on the preceding (related) sentences. Specifically, we quantify the responsiveness of the probes to the presence of (negated) supporting and contradicting sentences, and score the probes on their consistency. We also perform a causal intervention experiment, investigating whether moving the representation of a premise along these belief directions influences the position of the hypothesis along that same direction. We find that the probes we test are generally context sensitive, but that contexts which should not affect the truth often still impact the probe outputs. Our experiments show that the type of errors depend on the layer, the (type of) model, and the kind of data. Finally, our results suggest that belief directions are (one of the) causal mediators in the inference process that incorporates in-context information.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)の潜在空間には、文の真理を予測する方向が含まれていることが示されている。
複数の手法がそのような方向を復元し、モデルの"知識"や"信条"に到達したと説明されるプローブを構築する。
本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。
我々の実験は、LLMにおいて、プローブの予測が前回の(関連する)文で条件付きであると記述できる場所を確立する。
具体的には,質問文の存在と矛盾する文の存在に対するプローブの応答性を定量化し,その整合性について評価する。
我々はまた、これらの信念方向に沿って前提の表現を移動させることが、同じ方向に沿って仮説の位置に影響を与えるかどうかを調査する因果介入実験を行った。
テスト対象のプローブは一般的にコンテキストに敏感だが、真実に影響を与えないようなコンテキストは、プローブの出力に影響を与えていることが多い。
実験の結果,エラーの種類は層,(タイプの)モデル,データの種類に依存することがわかった。
最後に,本研究の結果から,信念の方向性は,文脈内情報を含む推論過程における因果媒介者(因果媒介者)であることが示唆された。
関連論文リスト
- Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。
信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。
確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-09-30T10:23:13Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Is Probing All You Need? Indicator Tasks as an Alternative to Probing
Embedding Spaces [19.4968960182412]
本研究では, 学習不能なタスクに対して, 特定の特性が存在する場合の埋め込み空間を問合せする「指示タスク」という用語を導入する。
適切な指標を適用すれば、プローブと比較して、取得・削除された情報のより正確な画像が得られることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:08:12Z) - Uncertain Evidence in Probabilistic Models and Stochastic Simulators [80.40110074847527]
我々は、不確実性を伴う観測を伴う確率論的モデルにおいて、ベイズ的推論を行うという問題について考察する。
我々は、不確実な証拠をどう解釈するかを探求し、潜伏変数の推論に関連する適切な解釈の重要性を拡大する。
我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-10-21T20:32:59Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。