論文の概要: Are Aligned Large Language Models Still Misaligned?
- arxiv url: http://arxiv.org/abs/2602.11305v1
- Date: Wed, 11 Feb 2026 19:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.506187
- Title: Are Aligned Large Language Models Still Misaligned?
- Title(参考訳): 調整済みの大規模言語モデルはまだ一致していないか?
- Authors: Usman Naseem, Gautam Siddharth Kashyap, Rafiq Ali, Ebad Shabbir, Sushant Kumar Ray, Abdullah Mohammad, Agrima Seth,
- Abstract要約: Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
- 参考スコア(独自算出の注目度): 13.062124372682106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misalignment in Large Language Models (LLMs) arises when model behavior diverges from human expectations and fails to simultaneously satisfy safety, value, and cultural dimensions, which must co-occur in real-world settings to solve a real-world query. Existing misalignment benchmarks-such as INSECURE CODE (safety-centric), VALUEACTIONLENS (value-centric), and CULTURALHERITAGE (culture centric)-rely on evaluating misalignment along individual dimensions, preventing simultaneous evaluation. To address this gap, we introduce Mis-Align Bench, a unified benchmark for analyzing misalignment across safety, value, and cultural dimensions. First we constructs SAVACU, an English misaligned-aligned dataset of 382,424 samples spanning 112 domains (or labels), by reclassifying prompts from the LLM-PROMPT-DATASET via taxonomy into 14 safety domains, 56 value domains, and 42 cultural domains using Mistral-7B-Instruct-v0.3, and expanding low-resource domains via Llama-3.1-8B-Instruct with SimHash-based fingerprint to avoid deduplication. Furthermore, we pairs prompts with misaligned and aligned responses via two-stage rejection sampling to enforce quality. Second we benchmarks general-purpose, fine-tuned, and open-weight LLMs, enabling systematic evaluation of misalignment under three dimensions. Empirically, single-dimension models achieve high Coverage (upto 97.6%) but incur False Failure Rate >50% and lower Alignment Score (63%-66%) under joint conditions.
- Abstract(参考訳): LLM(Large Language Models)のミスアライメントは、人間の期待からモデル行動が分岐し、安全性、価値、文化的次元を同時に満たさないときに発生する。
INSECURE CODE(セーフティ中心)、VALUEACTIONLENS(バリュー中心)、CULTURALHERITAGE(カルチャー中心)といった既存のミスアライメントベンチマークは、個々の次元に沿ったミスアライメントを評価し、同時評価を防止している。
このギャップに対処するために、安全、価値、文化的側面をまたいだ不整合を分析するための統一ベンチマークであるMis-Align Benchを紹介します。
まず、112のドメイン(またはラベル)にまたがる382,424のサンプルからなる英語のミスアライメントデータセットであるSAVACUを構築し、分類学的にLLM-PROMPT-DATASETから14の安全ドメイン、56の価値ドメイン、42の文化的ドメインに分類し、Mistral-7B-Instruct-v0.3を使用して、Llama-3.1-8B-InstructをSimHashベースの指紋で拡張し、重複を回避する。
さらに,2段階のリジェクションサンプリングによる不整合応答と整合応答をペアで行い,品質を強制する。
第2に, 汎用, 微調整, オープンウェイト LLM のベンチマークを行い, 3次元のミスアライメントの系統的評価を可能にした。
経験的に、単次元モデルは高いカバレッジ(97.6%まで)を達成するが、False Failure Rate 50% と低いアライメントスコア(63%-66%)を共同条件下で発生させる。
関連論文リスト
- Can Large Language Models Make Everyone Happy? [12.59854280011403]
LLM(Large Language Models)は、安全性、価値、文化的側面を同時に満たさないことを指す。
メカニカルプロファイリングにインスパイアされたミスアライメントトレードオフを測定するための統一ベンチマークであるMisAlign-Profileを紹介する。
論文 参考訳(メタデータ) (2026-02-11T17:57:23Z) - Do Large Language Models Reflect Demographic Pluralism in Safety? [12.59854280011403]
大言語モデル(LLM)の安全性は本質的に多元的であり、道徳的規範、文化的な期待、人口統計学的文脈のバリエーションを反映している。
Demo-SafetyBenchはこのギャップに対処するため、階層的多元性を直接プロンプトレベルでモデル化し、応答から値フレーミングを分離する。
ステージIでは、Mistral 7B-Instruct-v0.3を使用してDICESからのプロンプトを14の安全ドメインに分類し、人口統計メタデータを保持し、低リソースドメインを拡張する。
LLMs-as-Raters-Gemma-7B, GPT-4o, LLaMA-2-7B-under 0-shot を用いたステージII, 多重感度の評価
論文 参考訳(メタデータ) (2026-02-07T05:40:10Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - CIFE: Code Instruction-Following Evaluation [3.941243815951084]
我々は1,000のPythonタスクのベンチマークを導入し、それぞれが13のカテゴリにまたがる平均7つの開発者指定制約とペアリングした。
補完的付着度を用いて14個のオープンソース・クローズド・ソース・モデルを評価し,C2Aスコア(C2A Score)を提案する。
その結果、部分的満足度と厳密な満足度の間には実質的なギャップがみられ、強いモデルは90%以上の部分的密着性を達成する一方、厳密な密着性は39-66%に留まった。
論文 参考訳(メタデータ) (2025-12-19T09:43:20Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。