論文の概要: Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation
- arxiv url: http://arxiv.org/abs/2602.05656v1
- Date: Thu, 05 Feb 2026 13:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.950897
- Title: Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation
- Title(参考訳): 大規模言語モデルにおけるアライメント検証可能性:行動評価における規範的不識別性
- Authors: Igor Santos-Grueiro,
- Abstract要約: 行動評価は、大規模言語モデルにおけるアライメントを評価する主要なパラダイムである。
部分観測可能性下での識別可能性問題としてアライメント評価を行う。
行動アライメントテストは、アライメントの検証よりも、識別不可能なクラスの推定器として解釈されるべきである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral evaluation is the dominant paradigm for assessing alignment in large language models (LLMs). In practice, alignment is inferred from performance under finite evaluation protocols - benchmarks, red-teaming suites, or automated pipelines - and observed compliance is often treated as evidence of underlying alignment. This inference step, from behavioral evidence to claims about latent alignment properties, is typically implicit and rarely analyzed as an inference problem in its own right. We study this problem formally. We frame alignment evaluation as an identifiability question under partial observability and allow agent behavior to depend on information correlated with the evaluation regime. Within this setting, we introduce the Alignment Verifiability Problem and the notion of Normative Indistinguishability, capturing when distinct latent alignment hypotheses induce identical distributions over all evaluator-accessible signals. Our main result is a negative but sharply delimited identifiability theorem. Under finite behavioral evaluation and evaluation-aware agents, observed behavioral compliance does not uniquely identify latent alignment. That is, even idealized behavioral evaluation cannot, in general, certify alignment as a latent property. We further show that behavioral alignment tests should be interpreted as estimators of indistinguishability classes rather than verifiers of alignment. Passing increasingly stringent tests may reduce the space of compatible hypotheses, but cannot collapse it to a singleton under the stated conditions. This reframes alignment benchmarks as providing upper bounds on observable compliance within a regime, rather than guarantees of underlying alignment.
- Abstract(参考訳): 行動評価は、大規模言語モデル(LLM)におけるアライメントを評価するための主要なパラダイムである。
実際には、アライメントは、有限評価プロトコル(ベンチマーク、レッドチームスイート、自動パイプライン)でのパフォーマンスから推測され、監視されたコンプライアンスは、基盤となるアライメントの証拠として扱われることが多い。
この推論ステップは、行動証拠から潜在アライメント特性に関する主張まで、一般的に暗黙的であり、それ自体が推論問題として分析されることは滅多にない。
私たちはこの問題を正式に研究する。
我々は,部分観測可能性の下での識別可能性問題としてアライメント評価を行い,エージェントの行動が評価体制と相関する情報に依存するようにした。
この設定では、アライメント検証可能性問題とノルマティヴ不特定性の概念を導入し、各アライメント仮説がすべての評価器に到達可能な信号に対して同一の分布を誘導するときをキャプチャする。
我々の主な結果は、負だが鋭く制限された識別可能性定理である。
有限な行動評価および評価意識エージェントの下では、観察された行動コンプライアンスは遅延アライメントをユニークに識別しない。
すなわち、理想化された行動評価でさえ、一般に遅延特性としてのアライメントを証明できない。
さらに、行動アライメントテストは、アライメントの検証よりも、識別不可能なクラスの推定器として解釈されるべきであることを示す。
ますます厳密なテストに合格すると、互換性のある仮説の空間は減少するが、記述された条件下ではシングルトンに分解することはできない。
これはアライメントベンチマークを、基盤となるアライメントの保証ではなく、レシエーション内で観測可能なコンプライアンスの上限を提供するものとして再設定する。
関連論文リスト
- Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Logical Consistency Between Disagreeing Experts and Its Role in AI Safety [0.0]
2人の専門家は、テストについて意見が一致せず、両方が100%の正解ではないと結論付けるかもしれない。しかし、完全に同意すれば、評価は除外できない。
合意と不一致の効用におけるこの非対称性は、分類器の教師なし評価の論理を定式化することによって研究される。
論文 参考訳(メタデータ) (2025-10-01T12:30:01Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations [8.454242629883488]
大規模言語モデルのアライメントを評価するために、アライメント品質指標(AQI)を導入する。
AQIはクラスタリングの品質をキャプチャして、たとえアウトプットが準拠しているように見える場合でも、隠れたミスアライメントやジェイルブレイクのリスクを検出する。
また,挑戦条件下での堅牢な評価を容易にするLITMUSデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-16T18:22:28Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。
シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文 参考訳(メタデータ) (2025-02-20T16:44:54Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。