Fugu-MT 論文翻訳(概要): Truth-value judgment in language models: belief directions are context sensitive

論文の概要: Truth-value judgment in language models: belief directions are context sensitive

arxiv url: http://arxiv.org/abs/2404.18865v1
Date: Mon, 29 Apr 2024 16:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 12:48:52.973132
Title: Truth-value judgment in language models: belief directions are context sensitive
Title（参考訳）: 言語モデルにおける真の価値判定:信念の方向は文脈に敏感である
Authors: Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen,
Abstract要約: 大きな言語モデルの潜在空間は、文の真理を予測する方向を含む。複数の手法がそのような方向を復元し、モデルの"知識"や"信条"に到達したと説明されるプローブを構築する。本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。
参考スコア（独自算出の注目度）: 2.324913904215885
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent work has demonstrated that the latent spaces of large language models (LLMs) contain directions predictive of the truth of sentences. Multiple methods recover such directions and build probes that are described as getting at a model's "knowledge" or "beliefs". We investigate this phenomenon, looking closely at the impact of context on the probes. Our experiments establish where in the LLM the probe's predictions can be described as being conditional on the preceding (related) sentences. Specifically, we quantify the responsiveness of the probes to the presence of (negated) supporting and contradicting sentences, and score the probes on their consistency. We also perform a causal intervention experiment, investigating whether moving the representation of a premise along these belief directions influences the position of the hypothesis along that same direction. We find that the probes we test are generally context sensitive, but that contexts which should not affect the truth often still impact the probe outputs. Our experiments show that the type of errors depend on the layer, the (type of) model, and the kind of data. Finally, our results suggest that belief directions are (one of the) causal mediators in the inference process that incorporates in-context information.
Abstract（参考訳）: 近年の研究では、大きな言語モデル(LLM)の潜在空間には、文の真理を予測する方向が含まれていることが示されている。複数の手法がそのような方向を復元し、モデルの"知識"や"信条"に到達したと説明されるプローブを構築する。本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。我々の実験は、LLMにおいて、プローブの予測が前回の(関連する)文で条件付きであると記述できる場所を確立する。具体的には,質問文の存在と矛盾する文の存在に対するプローブの応答性を定量化し,その整合性について評価する。我々はまた、これらの信念方向に沿って前提の表現を移動させることが、同じ方向に沿って仮説の位置に影響を与えるかどうかを調査する因果介入実験を行った。テスト対象のプローブは一般的にコンテキストに敏感だが、真実に影響を与えないようなコンテキストは、プローブの出力に影響を与えていることが多い。実験の結果,エラーの種類は層,(タイプの)モデル,データの種類に依存することがわかった。最後に,本研究の結果から,信念の方向性は,文脈内情報を含む推論過程における因果媒介者(因果媒介者)であることが示唆された。

関連論文リスト

Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。近年,NLEの忠実度を測定するための様々な手法が提案されている。これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文参考訳（メタデータ） (2024-10-18T03:45:42Z)
How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文参考訳（メタデータ） (2024-09-30T10:23:13Z)
Large Language Models are Skeptics: False Negative Problem of Input-conflicting Hallucination [36.01680298955394]
我々は入力強調幻覚を誘発する新しい偏見のカテゴリーを同定する。大規模言語モデル(LLM)が入力コンテキストの内容と一致しない応答を生成することを示す。
論文参考訳（メタデータ） (2024-06-20T01:53:25Z)
Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文参考訳（メタデータ） (2024-05-27T13:26:34Z)
Cognitive Dissonance: Why Do Language Model Outputs Disagree with Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文参考訳（メタデータ） (2023-11-27T18:59:14Z)
Is Probing All You Need? Indicator Tasks as an Alternative to Probing Embedding Spaces [19.4968960182412]
本研究では, 学習不能なタスクに対して, 特定の特性が存在する場合の埋め込み空間を問合せする「指示タスク」という用語を導入する。適切な指標を適用すれば、プローブと比較して、取得・削除された情報のより正確な画像が得られることを示す。
論文参考訳（メタデータ） (2023-10-24T15:08:12Z)
Navigating the Grey Area: How Expressions of Uncertainty and Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文参考訳（メタデータ） (2023-02-26T23:46:29Z)
Mind Your Bias: A Critical Review of Bias Detection Methods for Contextual Language Models [2.170169149901781]
文脈言語モデルに対する厳密な分析とバイアス検出手法の比較を行う。私たちの結果は、マイナーな設計と実装の決定(またはエラー)が、導出バイアススコアに大きく、しばしば重大な影響を与えていることを示している。
論文参考訳（メタデータ） (2022-11-15T19:27:54Z)
Uncertain Evidence in Probabilistic Models and Stochastic Simulators [80.40110074847527]
我々は、不確実性を伴う観測を伴う確率論的モデルにおいて、ベイズ的推論を行うという問題について考察する。我々は、不確実な証拠をどう解釈するかを探求し、潜伏変数の推論に関連する適切な解釈の重要性を拡大する。我々は、不確実な証拠を説明するための具体的なガイドラインを考案し、特に一貫性に関する新しい洞察を提供する。
論文参考訳（メタデータ） (2022-10-21T20:32:59Z)
Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文参考訳（メタデータ） (2022-05-14T11:47:58Z)
Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。このタスクにより、PLMは語彙意味情報を学習することができる。
論文参考訳（メタデータ） (2022-05-08T08:37:36Z)
AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文参考訳（メタデータ） (2021-04-01T17:40:08Z)
Detecting Word Sense Disambiguation Biases in Machine Translation for Model-Agnostic Adversarial Attacks [84.61578555312288]
本稿では,統計的データ特性に基づく曖昧な誤りの予測手法を提案する。我々は,曖昧な誤りを生じさせるため,文の摂動を最小限に抑える,単純な敵攻撃戦略を開発する。以上の結果から,曖昧さの堅牢性はドメイン間で大きく異なり,同一データ上でトレーニングされた異なるモデルが異なる攻撃に対して脆弱であることが示唆された。
論文参考訳（メタデータ） (2020-11-03T17:01:44Z)
Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文参考訳（メタデータ） (2020-06-01T15:00:11Z)
CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文参考訳（メタデータ） (2020-04-18T20:09:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。