論文の概要: The Truthfulness Spectrum Hypothesis
- arxiv url: http://arxiv.org/abs/2602.20273v1
- Date: Mon, 23 Feb 2026 19:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.490684
- Title: The Truthfulness Spectrum Hypothesis
- Title(参考訳): 真性スペクトル仮説
- Authors: Zhuofan Josh Ying, Shauli Ravfogel, Nikolaus Kriegeskorte, Peter Hase,
- Abstract要約: 大規模言語モデル (LLM) は真理を線形にエンコードすることが報告されているが、最近の研究でこの発見の一般性に疑問が呈されている。
表現空間は、広義の領域一般から狭義の領域固有までの範囲の方向を含む。
この仮説を検証するために,5つの真理タイプ(定義的,経験的,論理的,フィクション的,倫理的誠実性),幻想的,期待を逆転する嘘,および既存のベンチマークを用いてプローブの一般化を評価する。
- 参考スコア(独自算出の注目度): 27.519391349337464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been reported to linearly encode truthfulness, yet recent work questions this finding's generality. We reconcile these views with the truthfulness spectrum hypothesis: the representational space contains directions ranging from broadly domain-general to narrowly domain-specific. To test this hypothesis, we systematically evaluate probe generalization across five truth types (definitional, empirical, logical, fictional, and ethical), sycophantic and expectation-inverted lying, and existing honesty benchmarks. Linear probes generalize well across most domains but fail on sycophantic and expectation-inverted lying. Yet training on all domains jointly recovers strong performance, confirming that domain-general directions exist despite poor pairwise transfer. The geometry of probe directions explains these patterns: Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98). Concept-erasure methods further isolate truth directions that are (1) domain-general, (2) domain-specific, or (3) shared only across particular domain subsets. Causal interventions reveal that domain-specific directions steer more effectively than domain-general ones. Finally, post-training reshapes truth geometry, pushing sycophantic lying further from other truth types, suggesting a representational basis for chat models' sycophantic tendencies. Together, our results support the truthfulness spectrum hypothesis: truth directions of varying generality coexist in representational space, with post-training reshaping their geometry. Code for all experiments is provided in https://github.com/zfying/truth_spec.
- Abstract(参考訳): 大規模言語モデル (LLM) は真理を線形にエンコードすることが報告されているが、最近の研究でこの発見の一般性に疑問が呈されている。
表現空間は、広義の領域一般から狭義の領域固有までの範囲の方向を含む。
この仮説を検証するために、我々は5つの真理タイプ(決定的、経験的、論理的、フィクション的、倫理的)、幻想的、期待を逆転する嘘、および既存の正直なベンチマークのプローブ一般化を体系的に評価した。
線形プローブは、ほとんどの領域でよく一般化されるが、サイコファンと予測反転嘘で失敗する。
しかし、全てのドメインでのトレーニングは強いパフォーマンスを回復させ、ペアの移動が貧弱であるにもかかわらず、ドメイン全般の方向性が存在することを確認した。
マハラノビスコサイン類似性(Mahalanobis cosine similarity between probes near-perfectly predicts cross-domain generalization (R^2=0.98)。
概念評価手法は、(1)ドメイン一般、(2)ドメイン固有、(3)特定のドメインサブセット間でのみ共有される真理方向をさらに分離する。
因果的介入により、ドメイン固有方向はドメイン一般方向よりも効果的に操縦できることが明らかになった。
最後に、後学習は真理幾何学に反応し、他の真理タイプからシコファン的嘘をさらに推し進め、チャットモデルのシコファン的傾向の表現的基盤を示唆する。
実験の結果は、表現空間において様々な一般性の真理方向が共存する真理性スペクトル仮説(英語版)を支持し、その後、それらの幾何学を再構成する。
すべての実験のコードはhttps://github.com/zfying/truth_spec.comで提供されている。
関連論文リスト
- A Geometric Taxonomy of Hallucinations in LLMs [0.2538209532048866]
大きな言語モデルにおける「幻覚」という用語は、埋め込み空間における異なる幾何学的シグネチャと異なる現象を混同している。
本稿では,不信感,信頼感,事実的誤りの3つのタイプを識別する分類法を提案する。
この貢献は、埋め込みに基づく検出の範囲を明確にした幾何学的分類法である。
論文 参考訳(メタデータ) (2026-01-26T22:07:09Z) - Continuous Domain Generalization [32.29899595196802]
本稿では,予測モデルを未確認領域に一般化することを目的とした連続領域一般化(CDG)の課題を紹介する。
幾何学的および代数的理論に基礎を置き、領域をまたいだ最適モデルパラメータが低次元多様体上に存在することを示す。
リモートセンシング,科学文書,交通予測などの合成および実世界のデータセット実験により,本手法が一般化精度とロバスト性の両方において既存のベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-05-17T12:39:45Z) - Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing [55.791818510796645]
我々は,訓練データから大きく逸脱した場合でも,様々なテスト分布によく適応するモデルを開発することを目的としている。
ドメイン適応、ドメイン一般化、ロバスト最適化といった様々なアプローチは、アウト・オブ・ディストリビューションの課題に対処しようと試みている。
我々は、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。
論文 参考訳(メタデータ) (2024-10-08T12:26:48Z) - Domain Generalization via Causal Adjustment for Cross-Domain Sentiment
Analysis [59.73582306457387]
クロスドメイン感情分析における領域一般化の問題に焦点をあてる。
本稿では,ドメイン固有表現とドメイン不変表現をアンタングル化するバックドア調整に基づく因果モデルを提案する。
一連の実験は、我々のモデルの優れたパフォーマンスと堅牢性を示しています。
論文 参考訳(メタデータ) (2024-02-22T13:26:56Z) - A Bit More Bayesian: Domain-Invariant Learning with Uncertainty [111.22588110362705]
ドメインの一般化は、ドメインシフトと、ターゲットドメインデータのアクセス不能に起因する不確実性のために困難である。
本稿では,変分ベイズ推定に基づく確率的枠組みを用いて,両課題に対処する。
2層ベイズ型ニューラルネットワークで共同で確立されたドメイン不変表現と分類器を導出する。
論文 参考訳(メタデータ) (2021-05-09T21:33:27Z) - Heuristic Domain Adaptation [105.59792285047536]
Heuristic Domain Adaptation Network (HDAN)は、ドメイン不変およびドメイン固有表現を明示的に学習する。
Heuristic Domain Adaptation Network (HDAN)は、教師なしDA、マルチソースDA、半教師なしDAの最先端を超越している。
論文 参考訳(メタデータ) (2020-11-30T04:21:35Z) - On Localized Discrepancy for Domain Adaptation [146.4580736832752]
本稿では,局所化後の仮説空間上で定義される局所的不一致について検討する。
2つの領域を交換すると、それらの値が異なるため、非対称な移動困難が明らかになる。
論文 参考訳(メタデータ) (2020-08-14T08:30:02Z) - Representation via Representations: Domain Generalization via
Adversarially Learned Invariant Representations [14.751829773340537]
複数の「研究」(または領域)から不変表現を学習するための敵対的検閲手法について検討する。
医学的な予測のような多くの文脈において、人口の多い地域での研究からの領域の一般化は、アルゴリズム的公正性に関する以前の研究では予想されていなかった、異なる風味の公平性を提供する。
論文 参考訳(メタデータ) (2020-06-20T02:35:03Z) - Single-Side Domain Generalization for Face Anti-Spoofing [91.79161815884126]
対面型アンチスプーフィングの一般化能力を向上させるために,エンドツーエンドの単一側ドメイン一般化フレームワークを提案する。
提案手法は,4つの公開データベース上での最先端手法よりも効果的かつ優れた手法である。
論文 参考訳(メタデータ) (2020-04-29T09:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。