Fugu-MT 論文翻訳(概要): Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

論文の概要: Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations

arxiv url: http://arxiv.org/abs/2506.13901v1
Date: Mon, 16 Jun 2025 18:22:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.203053
Title: Alignment Quality Index (AQI) : Beyond Refusals: AQI as an Intrinsic Alignment Diagnostic via Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations
Title（参考訳）: アライメント品質指標(AQI:Beyond Refusals: AQI as a Intrinsic Alignment Diagnostic by Latent Geometry, Cluster Divergence, and Layer wise Pooled Representations)
Authors: Abhilekh Borah, Chhavi Sharma, Danush Khanna, Utkarsh Bhatt, Gurpreet Singh, Hasnat Md Abdullah, Raghav Kaushik Ravi, Vinija Jain, Jyoti Patel, Shubham Singh, Vasu Sharma, Arpita Vats, Rahul Raja, Aman Chadha, Amitava Das,
Abstract要約: 大規模言語モデルのアライメントを評価するために、アライメント品質指標(AQI)を導入する。 AQIはクラスタリングの品質をキャプチャして、たとえアウトプットが準拠しているように見える場合でも、隠れたミスアライメントやジェイルブレイクのリスクを検出する。また,挑戦条件下での堅牢な評価を容易にするLITMUSデータセットを提案する。
参考スコア（独自算出の注目度）: 8.454242629883488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alignment is no longer a luxury, it is a necessity. As large language models (LLMs) enter high-stakes domains like education, healthcare, governance, and law, their behavior must reliably reflect human-aligned values and safety constraints. Yet current evaluations rely heavily on behavioral proxies such as refusal rates, G-Eval scores, and toxicity classifiers, all of which have critical blind spots. Aligned models are often vulnerable to jailbreaking, stochasticity of generation, and alignment faking. To address this issue, we introduce the Alignment Quality Index (AQI). This novel geometric and prompt-invariant metric empirically assesses LLM alignment by analyzing the separation of safe and unsafe activations in latent space. By combining measures such as the Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI), and Calinski-Harabasz Index (CHI) across various formulations, AQI captures clustering quality to detect hidden misalignments and jailbreak risks, even when outputs appear compliant. AQI also serves as an early warning signal for alignment faking, offering a robust, decoding invariant tool for behavior agnostic safety auditing. Additionally, we propose the LITMUS dataset to facilitate robust evaluation under these challenging conditions. Empirical tests on LITMUS across different models trained under DPO, GRPO, and RLHF conditions demonstrate AQI's correlation with external judges and ability to reveal vulnerabilities missed by refusal metrics. We make our implementation publicly available to foster future research in this area.
Abstract（参考訳）: アライメントはもはや高級品ではなく、必要です。大規模言語モデル(LLM)が教育、医療、ガバナンス、法といった高度な領域に入ると、その振る舞いは人間の整合した価値観や安全性の制約を確実に反映しなければなりません。しかし、現在の評価は、拒絶率、G-Evalスコア、毒性分類器といった行動プロキシに大きく依存している。調整されたモデルは、しばしばジェイルブレイク、生成の確率性、アライメントの流行に対して脆弱である。この問題に対処するため、アライメント品質指標(AQI)を導入する。この新しい幾何学的・急変計量は、潜在空間における安全かつ不安全なアクティベーションの分離を分析することにより、LLMアライメントを経験的に評価する。 Davies-Bouldin Score (DBS)、Dunn Index (DI)、Xie-Beni Index (XBI)、Calinski-Harabasz Index (CHI)といった指標を様々な定式化に組み合わせることで、AQIはクラスタリング品質をキャプチャして、たとえ出力が準拠しているように見える場合でも、隠れたミスアライメントやジェイルブレイクリスクを検出する。また、AQIはアライメントフェイキングの早期警告信号として機能し、行動非依存の安全監査のための堅牢でデコードな不変ツールを提供する。さらに,これらの課題条件下でのロバストな評価を容易にするLITMUSデータセットを提案する。 DPO、GRPO、RLHF条件下で訓練された様々なモデルにわたるLITMUSに関する実証テストは、AQIが外部の判断と相関し、メトリクスの拒否によって失われた脆弱性を明らかにする能力を示している。我々は,この領域における今後の研究を促進するために,実装を一般公開する。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。 AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文参考訳（メタデータ） (2025-05-27T21:34:40Z)
WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [13.807613678989664]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文参考訳（メタデータ） (2025-05-07T17:53:47Z)
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-04-24T15:39:46Z)
AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets [0.0]
しばしば感情的な抑圧と突然のアウトバーストによって引き起こされる道路の怒りは、衝突や攻撃的な行動を引き起こすことによって道路の安全を著しく脅かす。音声感情認識技術は、ネガティブな感情を早期に識別し、タイムリーな警告を発することにより、このリスクを軽減することができる。本稿では,予測精度を統計的に厳格に保証するリスク制御予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T12:26:28Z)
Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [26.645723217188323]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。 CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文参考訳（メタデータ） (2024-12-10T09:17:09Z)
Backdoor Attacks against No-Reference Image Quality Assessment Models via a Scalable Trigger [76.36315347198195]
No-Reference Image Quality Assessment (NR-IQA) はコンピュータビジョンシステムの評価と最適化において重要な役割を果たしている。近年の研究では、NR-IQAモデルが敵攻撃の影響を受けやすいことが示されている。 NR-IQA(BAIQA)に対する新規中毒性バックドアアタックを報告した。
論文参考訳（メタデータ） (2024-12-10T08:07:19Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Distribution-free uncertainty quantification for classification under label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文参考訳（メタデータ） (2021-03-04T20:51:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。