論文の概要: Can Large Language Models Make Everyone Happy?
- arxiv url: http://arxiv.org/abs/2602.11091v1
- Date: Wed, 11 Feb 2026 17:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.287815
- Title: Can Large Language Models Make Everyone Happy?
- Title(参考訳): 大規模言語モデルはみんなを幸せにできるのか?
- Authors: Usman Naseem, Gautam Siddharth Kashyap, Ebad Shabbir, Sushant Kumar Ray, Abdullah Mohammad, Rafiq Ali,
- Abstract要約: LLM(Large Language Models)は、安全性、価値、文化的側面を同時に満たさないことを指す。
メカニカルプロファイリングにインスパイアされたミスアライメントトレードオフを測定するための統一ベンチマークであるMisAlign-Profileを紹介する。
- 参考スコア(独自算出の注目度): 12.59854280011403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misalignment in Large Language Models (LLMs) refers to the failure to simultaneously satisfy safety, value, and cultural dimensions, leading to behaviors that diverge from human expectations in real-world settings where these dimensions must co-occur. Existing benchmarks, such as SAFETUNEBED (safety-centric), VALUEBENCH (value-centric), and WORLDVIEW-BENCH (culture-centric), primarily evaluate these dimensions in isolation and therefore provide limited insight into their interactions and trade-offs. More recent efforts, including MIB and INTERPRETABILITY BENCHMARK-based on mechanistic interpretability, offer valuable perspectives on model failures; however, they remain insufficient for systematically characterizing cross-dimensional trade-offs. To address these gaps, we introduce MisAlign-Profile, a unified benchmark for measuring misalignment trade-offs inspired by mechanistic profiling. First, we construct MISALIGNTRADE, an English misaligned-aligned dataset across 112 normative domains taxonomies, including 14 safety, 56 value, and 42 cultural domains. In addition to domain labels, each prompt is classified with one of three orthogonal semantic types-object, attribute, or relations misalignment-using Gemma-2-9B-it and expanded via Qwen3-30B-A3B-Instruct-2507 with SimHash-based fingerprinting to avoid deduplication. Each prompt is paired with misaligned and aligned responses through two-stage rejection sampling to ensure quality. Second, we benchmark general-purpose, fine-tuned, and open-weight LLMs on MISALIGNTRADE-revealing 12%-34% misalignment trade-offs across dimensions.
- Abstract(参考訳): LLM(Large Language Models)のミスアライメントは、安全性、価値、文化的次元を同時に満たさないことを指す。
SAFETUNEBED(セーフティ中心)、VALUEBENCH(バリュー中心)、WORLDVIEW-BENCH(カルチャー中心)といった既存のベンチマークは、主にこれらの次元を独立して評価し、それらの相互作用とトレードオフについて限られた洞察を与える。
MIB や InterPRETABILITY BENCHMARK などの近年の取り組みは、機械的解釈可能性に基づいて、モデル失敗に関する貴重な視点を提供するが、しかしながら、それらは、多次元トレードオフを体系的に特徴づけるには不十分である。
これらのギャップに対処するために、機械的プロファイリングにインスパイアされたミスアライメントトレードオフを測定するための統一ベンチマークであるMisAlign-Profileを紹介する。
まず、14の安全性、56の価値、42の文化的ドメインを含む112の規範的ドメインにまたがる、英語のミスアライメント・アライメント・データセットであるMISALIGNTRADEを構築した。
ドメインラベルに加えて、各プロンプトは3つの直交意味型のうちの1つに分類され、Gemma-2-9B-itを使用せずQwen3-30B-A3B-Instruct-2507を介して拡張され、SimHashベースのフィンガープリントによって重複を回避する。
各プロンプトは、品質を保証するために、2段階の拒絶サンプリングを通じて、不整合および整合応答とペアリングされる。
第2に、MISALIGNTRADEで汎用、微調整、オープンウェイトなLCMをベンチマークし、12%-34%のミスアライメントトレードオフを次元にわたって発見する。
関連論文リスト
- Do Large Language Models Reflect Demographic Pluralism in Safety? [12.59854280011403]
大言語モデル(LLM)の安全性は本質的に多元的であり、道徳的規範、文化的な期待、人口統計学的文脈のバリエーションを反映している。
Demo-SafetyBenchはこのギャップに対処するため、階層的多元性を直接プロンプトレベルでモデル化し、応答から値フレーミングを分離する。
ステージIでは、Mistral 7B-Instruct-v0.3を使用してDICESからのプロンプトを14の安全ドメインに分類し、人口統計メタデータを保持し、低リソースドメインを拡張する。
LLMs-as-Raters-Gemma-7B, GPT-4o, LLaMA-2-7B-under 0-shot を用いたステージII, 多重感度の評価
論文 参考訳(メタデータ) (2026-02-07T05:40:10Z) - When in Doubt, Deliberate: Confidence-Based Routing to Expert Debate for Sexism Detection [7.299050989302629]
我々は,(i)低表現,(ii)雑音,(iii)データおよびモデル予測における概念的あいまいさの複合効果に対処する枠組みを提案する。
提案手法では,タスク EXIST 2025 タスク 1.1 では F1 が +2.72% 改善され,EDOS A と B では +4.48% と +1.30% が得られた。
論文 参考訳(メタデータ) (2025-12-21T05:48:57Z) - CIFE: Code Instruction-Following Evaluation [3.941243815951084]
我々は1,000のPythonタスクのベンチマークを導入し、それぞれが13のカテゴリにまたがる平均7つの開発者指定制約とペアリングした。
補完的付着度を用いて14個のオープンソース・クローズド・ソース・モデルを評価し,C2Aスコア(C2A Score)を提案する。
その結果、部分的満足度と厳密な満足度の間には実質的なギャップがみられ、強いモデルは90%以上の部分的密着性を達成する一方、厳密な密着性は39-66%に留まった。
論文 参考訳(メタデータ) (2025-12-19T09:43:20Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis [35.2545408706656]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを抜粋するが、有害なコンテンツを生成することや悪意のある目的のために悪用されることに弱いままである。
本稿では,3つの重要な領域(語彙多様性,悪意障害,ジェイルブレイク戦術)にまたがるアライメントデータセットのリスクカバレッジを測定するための新しい分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T15:02:21Z) - Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。
CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。
実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文 参考訳(メタデータ) (2025-05-20T23:20:38Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。