論文の概要: Balancing Safety and Helpfulness in Healthcare AI Assistants through Iterative Preference Alignment
- arxiv url: http://arxiv.org/abs/2512.04210v1
- Date: Wed, 03 Dec 2025 19:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.838863
- Title: Balancing Safety and Helpfulness in Healthcare AI Assistants through Iterative Preference Alignment
- Title(参考訳): 反復選好アライメントによる医療AIアシスタントの安全性とヘルプフルネスのバランス
- Authors: Huy Nghiem, Swetasudha Panda, Devashish Khatwani, Huy V. Nguyen, Krishnaram Kenthapadi, Hal Daumé,
- Abstract要約: 大きな言語モデル(LLM)は、医療でますます使われていますが、その安全性と信頼性は、デプロイメントの障壁として残っています。
本稿では,KTO(Kahneman-Tversky Optimization)とDPO(Direct Preference Optimization)を用いて,ドメイン固有の安全信号に対するモデルの改良を行う。
- 参考スコア(独自算出の注目度): 9.422745886489801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in healthcare, yet ensuring their safety and trustworthiness remains a barrier to deployment. Conversational medical assistants must avoid unsafe compliance without over-refusing benign queries. We present an iterative post-deployment alignment framework that applies Kahneman-Tversky Optimization (KTO) and Direct Preference Optimization (DPO) to refine models against domain-specific safety signals. Using the CARES-18K benchmark for adversarial robustness, we evaluate four LLMs (Llama-3B/8B, Meditron-8B, Mistral-7B) across multiple cycles. Our results show up to 42% improvement in safety-related metrics for harmful query detection, alongside interesting trade-offs against erroneous refusals, thereby exposing architecture-dependent calibration biases. We also perform ablation studies to identify when self-evaluation is reliable and when external or finetuned judges are necessary to maximize performance gains. Our findings underscore the importance of adopting best practices that balance patient safety, user trust, and clinical utility in the design of conversational medical assistants.
- Abstract(参考訳): 大きな言語モデル(LLM)は、医療でますます使われていますが、その安全性と信頼性は、デプロイメントの障壁として残っています。
会話型医療アシスタントは、良心的な問い合わせを過度に拒否することなく、安全でないコンプライアンスを避ける必要がある。
本稿では,KTO(Kahneman-Tversky Optimization)とDPO(Direct Preference Optimization)を用いて,ドメイン固有の安全信号に対するモデルの改良を行う。
CARES-18Kベンチマークを用いて, 複数サイクルにわたるLLM(Llama-3B/8B, Meditron-8B, Mistral-7B)の評価を行った。
その結果,不正な拒否に対する興味深いトレードオフに加えて,有害なクエリ検出のための安全性関連指標が最大42%向上し,アーキテクチャ依存のキャリブレーションバイアスが露呈した。
また,自己評価が信頼できる時期と,外部又は微調整された審査員がパフォーマンス向上を最大化するために必要となる時期を特定するためのアブレーション研究も行った。
本研究は, 患者安全, ユーザ信頼, 臨床ユーティリティのバランスをとるためのベストプラクティスを, 会話型医療アシスタントの設計に導入することの重要性を浮き彫りにした。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Prompt4Trust: A Reinforcement Learning Prompt Augmentation Framework for Clinically-Aligned Confidence Calibration in Multimodal Large Language Models [4.035767214877404]
Prompt4Trustは,MLLMにおける信頼度校正をターゲットとした即時強化のための,最初の強化学習フレームワークである。
従来のキャリブレーション技術とは異なり、Prompt4Trustは安全で信頼性の高い臨床診断に最も重要なキャリブレーションの側面を特に優先している。
実験では,より大きなMLLMに対してゼロショットの一般化が期待できることを示した。
論文 参考訳(メタデータ) (2025-07-12T13:21:10Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。