論文の概要: LLM Probing with Contrastive Eigenproblems: Improving Understanding and Applicability of CCS
- arxiv url: http://arxiv.org/abs/2511.02089v1
- Date: Mon, 03 Nov 2025 22:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.691727
- Title: LLM Probing with Contrastive Eigenproblems: Improving Understanding and Applicability of CCS
- Title(参考訳): コントラスト固有プロブレムを用いたLCM探索:CCSの理解と適用性の向上
- Authors: Stefan F. Schouten, Peter Bloem,
- Abstract要約: 最適化されるべきなのは、相対的なコントラスト一貫性である、と私たちは主張する。
我々は CCS を固有確率として再構成し、解釈可能な固有値と複数の変数への自然な拡張を持つ閉形式解を得る。
この結果から,コントラスト整合性の相対性化はCSの理解を向上するだけでなく,より広範な探索や機械的解釈可能性手法の道を開くことが示唆された。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrast-Consistent Search (CCS) is an unsupervised probing method able to test whether large language models represent binary features, such as sentence truth, in their internal activations. While CCS has shown promise, its two-term objective has been only partially understood. In this work, we revisit CCS with the aim of clarifying its mechanisms and extending its applicability. We argue that what should be optimized for, is relative contrast consistency. Building on this insight, we reformulate CCS as an eigenproblem, yielding closed-form solutions with interpretable eigenvalues and natural extensions to multiple variables. We evaluate these approaches across a range of datasets, finding that they recover similar performance to CCS, while avoiding problems around sensitivity to random initialization. Our results suggest that relativizing contrast consistency not only improves our understanding of CCS but also opens pathways for broader probing and mechanistic interpretability methods.
- Abstract(参考訳): Contrast-Consistent Search (CCS) は、内部アクティベーションにおいて、大きな言語モデルが文の真理のようなバイナリな特徴を表すかどうかを検証できる教師なしの探索手法である。
CCSは約束を示しているが、その2つの長期的な目的は部分的には理解されていない。
本研究では,そのメカニズムを明確にし,適用性を高めることを目的として,CSを再考する。
最適化されるべきなのは、相対的なコントラスト一貫性である、と私たちは主張する。
この知見に基づいて、我々は CCS を固有確率として再構成し、解釈可能な固有値と複数の変数への自然な拡張を持つ閉形式解を得る。
我々は、これらのアプローチを様々なデータセットで評価し、CCSに類似した性能を回復し、ランダム初期化に対する感度に関する問題を回避した。
この結果から,コントラスト整合性の相対性化はCSの理解を向上するだけでなく,より広範な探索や機械的解釈可能性手法の道を開くことが示唆された。
関連論文リスト
- Self-Calibrated Consistency can Fight Back for Adversarial Robustness in Vision-Language Models [31.920092341939593]
自己キャリブレーション・コンシスタンシー(Self-Calibrated Consistency)は、敵の攻撃に対する効果的なテストタイム防衛である。
SCCは精度を維持しながら、CLIPのゼロショットロバスト性を一貫して改善する。
これらの知見は、CLIPから逆向きに堅牢なパラダイムを確立する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-26T18:37:12Z) - The Causal Abstraction Network: Theory and Learning [14.952578725545344]
因果的人工知能は、構造因果モデル(SCM)を活用することにより、AIの説明可能性、堅牢性、信頼性を高めることを目的としている。
近年の進歩は因果知識のネットワーク層を形式化している。
因果抽象ネットワーク (CAN) は, (i) がガウスであり, (ii) 写像が構成的線形抽象の転置であるようなせん断の具体例である。
論文 参考訳(メタデータ) (2025-09-25T07:48:25Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - Conflict-Based Cross-View Consistency for Semi-Supervised Semantic
Segmentation [34.97083511196799]
半教師付きセマンティックセグメンテーション(SSS)は近年研究の関心が高まっている。
現在の手法は、しばしば擬似ラベリングプロセスの確証バイアスに悩まされる。
本稿では,2分岐協調学習フレームワークに基づく新しいコンフリクトベースクロスビュー整合性(CCVC)手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T14:02:16Z) - Encouraging Disentangled and Convex Representation with Controllable
Interpolation Regularization [15.725515910594725]
制御不能な不整合表現学習(C-Dis-RL)に焦点を当てる。
制御可能な補間正規化法(CIR)を提案する。
論文 参考訳(メタデータ) (2021-12-06T16:52:07Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。