論文の概要: DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training
- arxiv url: http://arxiv.org/abs/2604.16845v1
- Date: Sat, 18 Apr 2026 05:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.1986
- Title: DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training
- Title(参考訳): DART:Dulti-Audit-Repair TrainingによるLLMのハームドリフトの軽減
- Authors: Ziwen Pan, Zihan Liang, Jad Kabbara, Ali Emami,
- Abstract要約: 安全のために調整された大きな言語モデル(LLM)は、しばしば人口統計の違いを認めない。
このアイデンティティ・ブラインドネスは、誤った応答、不必要な拒絶、あるいは一般的な"equal-treatment"デフォルトをもたらす。
DART(Distill-Audit-Repair Training)を導入する。
- 参考スコア(独自算出の注目度): 18.22030439716779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) tuned for safety often avoid acknowledging demographic differences, even when such acknowledgment is factually correct (e.g., ancestry-based disease incidence) or contextually justified (e.g., religious hiring preferences). This identity-blindness yields incorrect responses, unnecessary refusals, or generic "equal-treatment" defaults. We study this via difference-awareness classification: given a question involving demographic groups, the task is not to answer directly, but to classify whether a correct answer requires recognizing group differences (yes) or whether groups should be treated identically (no). Crucially, fine-tuning for accuracy triggers harm drift: model-generated explanations become increasingly harmful as decision accuracy improves, whether by elaborating harmful content, introducing problematic assumptions, or failing to flag harms the baseline identified. To mitigate this, we introduce DART (Distill--Audit--Repair Training), which distills label-conditioned reasoning from a teacher, audits outputs for harm drift cases relative to baseline, and repairs problematic cases via severity-weighted fine-tuning. On eight benchmarks, DART improves Llama-3-8B-Instruct accuracy from 39.0% to 68.8%, with largest gains on equal-treatment prompts (11.3% -> 72.6%), while reducing harm drift cases by 72.6%. It also transfers to 280 open-ended real-world queries across medical, legal, policy, and educational domains, improving difference-appropriate responses from 39.8% to 77.5% while reducing refusals from 34.3% to 3.0%. Our results demonstrate that accuracy and safety need not conflict when explicit detection and repair mechanisms are in place.
- Abstract(参考訳): 安全のために調整された大規模言語モデル(LLM)は、そのような認識が事実的に正しい場合(例えば、祖先による疾患の発生)や文脈的に正当化された場合(例えば、宗教的な雇用の選好)であっても、人口差の認識を避けることがしばしばある。
このアイデンティティ・ブラインドネスは、誤った応答、不必要な拒絶、あるいは一般的な"equal-treatment"デフォルトをもたらす。
人口統計学的グループに関わる質問は直接答えるのではなく、正解が集団差(yes)を認識する必要があるか、集団を同一に扱うべきか(no.)を分類することである。
決定の精度が向上するにつれて、決定の正確さが向上し、有害なコンテンツを評価したり、問題のある仮定を導入したり、基準線にフラグを付けなかったりすることで、モデル生成の説明がますます有害になる。
そこで本研究では,教師からのラベル条件付き推論を蒸留し,ベースラインに対する有害ドリフト症例のアウトプットを監査し,重度重み付けによる問題事例の修復を行うDART(Distill-Audit-Repair Training)を導入する。
8つのベンチマークで、DARTはLlama-3-8B-インストラクションの精度を39.0%から68.8%に改善し、同処理のプロンプト(11.3% ->72.6%)が最大となり、有害ドリフトのケースを72.6%削減した。
また、医学、法学、政策、教育分野にわたる280のオープンエンドのリアルタイムクエリに移行し、39.8%から77.5%に、拒絶率を34.3%から3.0%に下げた。
以上の結果から,明示的な検出・修復機構が存在する場合,精度と安全性は相反する必要はないことが示唆された。
関連論文リスト
- Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode [9.116800340266066]
Claude Codeの自動モードは、AIコーディングエージェントに最初にデプロイされたパーミッションシステムである。
Anthropicは、生産トラフィックに対して0.4%の偽陽性率と17%の偽陰性率を報告している。
本研究では, 個々の行動レベルでの状態変化行動253件を, オラクル・グラウンドの真理に対して評価した。
論文 参考訳(メタデータ) (2026-04-04T17:56:30Z) - Interpretability without actionability: mechanistic methods cannot correct language model errors despite near-perfect internal representations [1.6676380665893165]
言語モデルは、その出力性能をはるかに上回る内部表現におけるタスク関連知識を符号化する。
現在の機械的解釈可能性法は、内部知識を確実に修正された出力に変換することはできない。
論文 参考訳(メタデータ) (2026-03-18T23:31:05Z) - Residual Stream Analysis of Overfitting And Structural Disruptions [26.444437808784482]
安全データは一般的な命令データに比べてトークンエントロピーと2グラムの多様性が著しく低いことを示す。
根本原因を明らかにするために,PCAをベースとした安定な形状解析ツールであるFlowLensを紹介する。
中層残留物における過剰な分散濃度をペナル化する補助正則化器である可変濃度損失を提案する。
論文 参考訳(メタデータ) (2026-03-04T11:13:58Z) - Reviewing the Reviewer: Graph-Enhanced LLMs for E-commerce Appeal Adjudication [0.7136933021609076]
本稿では,手術場における幻覚を抑える適応推論のための最小限の表現を提案する。
我々は,新たな事例に対するトップダウン推論を行う,競合対応のグラフ推論フレームワークを開発した。
大規模電子商取引業者の控訴判決における枠組みを評価する。
論文 参考訳(メタデータ) (2026-02-27T00:43:59Z) - High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning [84.52940628494879]
大規模言語モデル(LLM)は現在、すべてのプロンプトに応答する。
LLMは、知識や能力の欠如によって、誤った答えを生み出すことができる。
本稿では,その正確性に自信を持った場合にのみコンテンツを生成するためのLCMのポストトレーニングを提案する。
論文 参考訳(メタデータ) (2025-06-04T15:16:21Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - Cost-Sensitive Machine Learning Classification for Mass Tuberculosis
Verbal Screening [0.0]
識別値の感度は1.26%,特異性は13.19%向上した。
その結果, 限られたデータであっても, 言語スクリーニングからTB容疑者を識別するより良い手法を実際に考案できることが示唆された。
論文 参考訳(メタデータ) (2020-11-14T21:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。