論文の概要: Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation
- arxiv url: http://arxiv.org/abs/2602.05656v2
- Date: Fri, 06 Feb 2026 19:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 14:34:06.134955
- Title: Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation
- Title(参考訳): 大規模言語モデルにおけるアライメント検証可能性:行動評価における規範的不識別性
- Authors: Igor Santos-Grueiro,
- Abstract要約: 部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討した。
我々は、アライメント検証可能性問題を定式化し、ノーマティブ識別可能性を導入する。
以上の結果から,行動ベンチマークは,評価意識下での遅延アライメントに必要だが不十分な証拠を提供することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral evaluation is the dominant paradigm for assessing alignment in large language models (LLMs). In current practice, observed compliance under finite evaluation protocols is treated as evidence of latent alignment. However, the inference from bounded behavioral evidence to claims about global latent properties is rarely analyzed as an identifiability problem. In this paper, we study alignment evaluation through the lens of statistical identifiability under partial observability. We allow agent policies to condition their behavior on observable signals correlated with the evaluation regime, a phenomenon we term evaluation awareness. Within this framework, we formalize the Alignment Verifiability Problem and introduce Normative Indistinguishability, which arises when distinct latent alignment hypotheses induce identical distributions over evaluator-accessible observations. Our main theoretical contribution is a conditional impossibility result: under finite behavioral evaluation and evaluation-aware policies, observed compliance does not uniquely identify latent alignment, but only membership in an equivalence class of conditionally compliant policies, under explicit assumptions on policy expressivity and observability. We complement the theory with a constructive existence proof using an instruction-tuned LLM (Llama-3.2-3B), demonstrating a conditional policy that is perfectly compliant under explicit evaluation signals yet exhibits degraded identifiability when the same evaluation intent is conveyed implicitly. Together, our results show that behavioral benchmarks provide necessary but insufficient evidence for latent alignment under evaluation awareness.
- Abstract(参考訳): 行動評価は、大規模言語モデル(LLM)におけるアライメントを評価するための主要なパラダイムである。
現在、有限評価プロトコル下での観察されたコンプライアンスは、遅延アライメントの証拠として扱われている。
しかし、グローバル潜伏特性に関する主張に対する有界な行動証拠からの推論は、識別可能性問題としてはほとんど分析されない。
本稿では,部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討する。
エージェントポリシーは,評価体制と相関する観測可能な信号に対して,その動作を条件付けることを許す。
この枠組みでは、アライメント検証可能性問題(Alignment Verifiability problem)を定式化し、評価器に到達可能な観測よりも、異なる遅延アライメント仮説が同一の分布を誘導した場合に生じるノルマティヴ・インディペンシビリティ(Normative Indistingiishability)を導入する。
有限な行動評価および評価対応ポリシの下では、観測されたコンプライアンスは、遅延アライメントを一意に識別するのではなく、ポリシー表現性と可観測性に関する明確な仮定の下で、条件に準拠したポリシーの同値クラスに属するのみである。
この理論をLLM (Llama-3.2-3B) を用いた構成的存在証明で補完し, 明示的な評価信号の下で完全に準拠する条件付きポリシを示すが, 同じ評価意図が暗黙的に伝達された場合, 劣化した識別性を示す。
この結果から,行動ベンチマークは,評価意識下での潜時的アライメントに必要だが不十分な証拠を提供することが示された。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Causality is Key for Interpretability Claims to Generalise [35.833847356014154]
大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
論文 参考訳(メタデータ) (2026-02-18T18:45:04Z) - The Validity of Coreference-based Evaluations of Natural Language Understanding [3.505146496638911]
標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-18T05:49:28Z) - When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment [0.0]
高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いを予測することを前提としている。
部分観測可能性下での情報流問題としてアライメント評価をリキャストする。
我々は、レギュラー・ブラインド・メカニズム、レギュラー・キューへのアクセスを制限する訓練時間介入について研究する。
論文 参考訳(メタデータ) (2026-02-09T10:00:24Z) - Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Logical Consistency Between Disagreeing Experts and Its Role in AI Safety [0.0]
2人の専門家は、テストについて意見が一致せず、両方が100%の正解ではないと結論付けるかもしれない。しかし、完全に同意すれば、評価は除外できない。
合意と不一致の効用におけるこの非対称性は、分類器の教師なし評価の論理を定式化することによって研究される。
論文 参考訳(メタデータ) (2025-10-01T12:30:01Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations [8.454242629883488]
大規模言語モデルのアライメントを評価するために、アライメント品質指標(AQI)を導入する。
AQIはクラスタリングの品質をキャプチャして、たとえアウトプットが準拠しているように見える場合でも、隠れたミスアライメントやジェイルブレイクのリスクを検出する。
また,挑戦条件下での堅牢な評価を容易にするLITMUSデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-16T18:22:28Z) - Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。
シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文 参考訳(メタデータ) (2025-02-20T16:44:54Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Matrix Estimation for Offline Reinforcement Learning with Low-Rank
Structure [10.968373699696455]
エージェントが環境と相互作用せず、行動ポリシーを用いて収集されたオフラインデータに頼らなければならないオフライン強化学習(RL)について考察する。
事前の作業は、評価対象方針が行動方針によってカバーされている場合に、政策評価を保証する。
そこで本稿では,低ランク構造を利用したオフラインポリシ評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T23:49:06Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。