論文の概要: Polarity-Aware Probing for Quantifying Latent Alignment in Language Models
- arxiv url: http://arxiv.org/abs/2511.21737v1
- Date: Fri, 21 Nov 2025 14:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.190372
- Title: Polarity-Aware Probing for Quantifying Latent Alignment in Language Models
- Title(参考訳): 言語モデルにおける潜在アライメントの定量化のための極性認識探索
- Authors: Sabrina Sadiekh, Elena Ericheva, Chirag Agarwal,
- Abstract要約: Polarity-Aware CCS (PA-CCS) は、モデルの内部表現が極性反転の下で一定であるかどうかを評価する手法である。
モデルの潜在的知識のセマンティックロバスト性を定量化するために,2つのアライメント指向メトリクスであるPolar-ConsistencyとContradiction Indexを提案する。
- 参考スコア(独自算出の注目度): 13.16745936025085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in unsupervised probes such as Contrast-Consistent Search (CCS), which reveal latent beliefs without relying on token outputs, raise the question of whether these methods can reliably assess model alignment. We investigate this by examining the sensitivity of CCS to harmful vs. safe statements and by introducing Polarity-Aware CCS (PA-CCS), a method for evaluating whether a model's internal representations remain consistent under polarity inversion. We propose two alignment-oriented metrics, Polar-Consistency and the Contradiction Index, to quantify the semantic robustness of a model's latent knowledge. To validate PA-CCS, we curate two main datasets and one control dataset containing matched harmful-safe sentence pairs constructed using different methodologies (concurrent and antagonistic statements). We apply PA-CCS to 16 language models. Our results show that PA-CCS identifies both architectural and layer-specific differences in the encoding of latent harmful knowledge. Notably, replacing the negation token with a meaningless marker degrades PA-CCS scores for models with well-aligned internal representations, while models lacking robust internal calibration do not exhibit this degradation. Our findings highlight the potential of unsupervised probing for alignment evaluation and emphasize the need to incorporate structural robustness checks into interpretability benchmarks. Code and datasets are available at: https://github.com/SadSabrina/polarity-probing. WARNING: This paper contains potentially sensitive, harmful, and offensive content.
- Abstract(参考訳): Contrast-Consistent Search (CCS)のような教師なしプローブの進歩は、トークン出力を頼らずに潜伏した信念を明らかにすることで、これらの手法がモデルのアライメントを確実に評価できるかどうかという疑問を提起する。
モデルの内部表現が極性反転の下で一定であるかどうかを評価する手法であるPolaity-Aware CCS(PA-CCS)を導入することにより,CCSの有害な安全な文に対する感受性を検討する。
モデルの潜在的知識のセマンティックロバスト性を定量化するために,2つのアライメント指向メトリクスであるPolar-ConsistencyとContradiction Indexを提案する。
PA-CCSを検証するために、異なる手法(並行文と対角文)を用いて構築した、マッチした有害な文対を含む2つの主要なデータセットと1つの制御データセットをキュレートする。
PA-CCSを16言語モデルに適用する。
以上の結果から,PA-CCSは潜在有害知識の符号化における構造的および層的差異の両方を識別できることがわかった。
特に、否定トークンを無意味なマーカーに置き換えると、適切に整合した内部表現を持つモデルのPA-CCSスコアは低下するが、頑健な内部キャリブレーションを持たないモデルは、この低下を示さない。
本研究は,アライメント評価のための教師なし探索の可能性を強調し,構造的ロバスト性チェックを解釈可能性ベンチマークに組み込む必要性を強調した。
コードとデータセットは、https://github.com/SadSabrina/polarity-probing.comで入手できる。
WARNING: この論文には、潜在的に敏感で有害で攻撃的な内容が含まれています。
関連論文リスト
- Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric [49.393713730706445]
汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。
本稿では,ロバストネスアライメントスコア(RAS)を提案する。
論文 参考訳(メタデータ) (2025-11-24T12:07:56Z) - LLM Probing with Contrastive Eigenproblems: Improving Understanding and Applicability of CCS [0.17188280334580197]
最適化されるべきなのは、相対的なコントラスト一貫性である、と私たちは主張する。
我々は CCS を固有確率として再構成し、解釈可能な固有値と複数の変数への自然な拡張を持つ閉形式解を得る。
この結果から,コントラスト整合性の相対性化はCSの理解を向上するだけでなく,より広範な探索や機械的解釈可能性手法の道を開くことが示唆された。
論文 参考訳(メタデータ) (2025-11-03T22:00:37Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations [8.454242629883488]
大規模言語モデルのアライメントを評価するために、アライメント品質指標(AQI)を導入する。
AQIはクラスタリングの品質をキャプチャして、たとえアウトプットが準拠しているように見える場合でも、隠れたミスアライメントやジェイルブレイクのリスクを検出する。
また,挑戦条件下での堅牢な評価を容易にするLITMUSデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-16T18:22:28Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - EGEAN: An Exposure-Guided Embedding Alignment Network for Post-Click Conversion Estimation [6.178133899988549]
クリック後変換率(CVR)の推定は、オンライン広告システムにとって不可欠である。
因果的アプローチの進歩にもかかわらず、CVR推定はCovariate Shiftによる課題に直面している。
本研究では,この問題を解決するためのEGEAN(Exposure-Guided Embedding Alignment Network)を提案する。
論文 参考訳(メタデータ) (2024-12-08T10:17:02Z) - FI-ODE: Certifiably Robust Forward Invariance in Neural ODEs [34.762005448725226]
本稿では,ニューラルネットワークのフォワード不変性をトレーニングし,確実に証明するための一般的なフレームワークを提案する。
このフレームワークを、堅牢な継続的制御において認証された安全性を提供するために適用します。
さらに,画像分類における逆方向の堅牢性を証明するために,このフレームワークの汎用性について検討する。
論文 参考訳(メタデータ) (2022-10-30T20:30:19Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。