論文の概要: Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation
- arxiv url: http://arxiv.org/abs/2602.05656v2
- Date: Fri, 06 Feb 2026 19:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 14:34:06.134955
- Title: Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation
- Title(参考訳): 大規模言語モデルにおけるアライメント検証可能性:行動評価における規範的不識別性
- Authors: Igor Santos-Grueiro,
- Abstract要約: 部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討した。
我々は、アライメント検証可能性問題を定式化し、ノーマティブ識別可能性を導入する。
以上の結果から,行動ベンチマークは,評価意識下での遅延アライメントに必要だが不十分な証拠を提供することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral evaluation is the dominant paradigm for assessing alignment in large language models (LLMs). In current practice, observed compliance under finite evaluation protocols is treated as evidence of latent alignment. However, the inference from bounded behavioral evidence to claims about global latent properties is rarely analyzed as an identifiability problem. In this paper, we study alignment evaluation through the lens of statistical identifiability under partial observability. We allow agent policies to condition their behavior on observable signals correlated with the evaluation regime, a phenomenon we term evaluation awareness. Within this framework, we formalize the Alignment Verifiability Problem and introduce Normative Indistinguishability, which arises when distinct latent alignment hypotheses induce identical distributions over evaluator-accessible observations. Our main theoretical contribution is a conditional impossibility result: under finite behavioral evaluation and evaluation-aware policies, observed compliance does not uniquely identify latent alignment, but only membership in an equivalence class of conditionally compliant policies, under explicit assumptions on policy expressivity and observability. We complement the theory with a constructive existence proof using an instruction-tuned LLM (Llama-3.2-3B), demonstrating a conditional policy that is perfectly compliant under explicit evaluation signals yet exhibits degraded identifiability when the same evaluation intent is conveyed implicitly. Together, our results show that behavioral benchmarks provide necessary but insufficient evidence for latent alignment under evaluation awareness.
- Abstract(参考訳): 行動評価は、大規模言語モデル(LLM)におけるアライメントを評価するための主要なパラダイムである。
現在、有限評価プロトコル下での観察されたコンプライアンスは、遅延アライメントの証拠として扱われている。
しかし、グローバル潜伏特性に関する主張に対する有界な行動証拠からの推論は、識別可能性問題としてはほとんど分析されない。
本稿では,部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討する。
エージェントポリシーは,評価体制と相関する観測可能な信号に対して,その動作を条件付けることを許す。
この枠組みでは、アライメント検証可能性問題(Alignment Verifiability problem)を定式化し、評価器に到達可能な観測よりも、異なる遅延アライメント仮説が同一の分布を誘導した場合に生じるノルマティヴ・インディペンシビリティ(Normative Indistingiishability)を導入する。
有限な行動評価および評価対応ポリシの下では、観測されたコンプライアンスは、遅延アライメントを一意に識別するのではなく、ポリシー表現性と可観測性に関する明確な仮定の下で、条件に準拠したポリシーの同値クラスに属するのみである。
この理論をLLM (Llama-3.2-3B) を用いた構成的存在証明で補完し, 明示的な評価信号の下で完全に準拠する条件付きポリシを示すが, 同じ評価意図が暗黙的に伝達された場合, 劣化した識別性を示す。
この結果から,行動ベンチマークは,評価意識下での潜時的アライメントに必要だが不十分な証拠を提供することが示された。
関連論文リスト
- Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Logical Consistency Between Disagreeing Experts and Its Role in AI Safety [0.0]
2人の専門家は、テストについて意見が一致せず、両方が100%の正解ではないと結論付けるかもしれない。しかし、完全に同意すれば、評価は除外できない。
合意と不一致の効用におけるこの非対称性は、分類器の教師なし評価の論理を定式化することによって研究される。
論文 参考訳(メタデータ) (2025-10-01T12:30:01Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations [8.454242629883488]
大規模言語モデルのアライメントを評価するために、アライメント品質指標(AQI)を導入する。
AQIはクラスタリングの品質をキャプチャして、たとえアウトプットが準拠しているように見える場合でも、隠れたミスアライメントやジェイルブレイクのリスクを検出する。
また,挑戦条件下での堅牢な評価を容易にするLITMUSデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-16T18:22:28Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。
シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文 参考訳(メタデータ) (2025-02-20T16:44:54Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。