論文の概要: Quark Medical Alignment: A Holistic Multi-Dimensional Alignment and Collaborative Optimization Paradigm
- arxiv url: http://arxiv.org/abs/2602.11661v1
- Date: Thu, 12 Feb 2026 07:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.69413
- Title: Quark Medical Alignment: A Holistic Multi-Dimensional Alignment and Collaborative Optimization Paradigm
- Title(参考訳): Quark Medical Alignment: ホロスティックな多次元アライメントと協調最適化パラダイム
- Authors: Tianxiang Xu, Jiayi Liu, Yixuan Tong, Jialu Xu, Yunqing Wei, Kaiwen Feng, PanPan Hou, Kangping Yin, Jiyuan Hu, Hao Zhou, Zhenxin Ma, Jian Xu, Guanjun Jiang,
- Abstract要約: 近年,大規模言語モデルアライメントのための強化学習が急速に進展している。
これらのパラダイムをハイテイクな医療質問応答に転送すると、基本的なパラダイムミスマッチが明らかになる。
これらの課題に対処するために、堅牢な医療アライメントパラダイムを提案する。
- 参考スコア(独自算出の注目度): 7.449373800890174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning for large language model alignment has progressed rapidly in recent years, transferring these paradigms to high-stakes medical question answering reveals a fundamental paradigm mismatch. Reinforcement Learning from Human Feedback relies on preference annotations that are prohibitively expensive and often fail to reflect the absolute correctness of medical facts. Reinforcement Learning from Verifiable Rewards lacks effective automatic verifiers and struggles to handle complex clinical contexts. Meanwhile, medical alignment requires the simultaneous optimization of correctness, safety, and compliance, yet multi-objective heterogeneous reward signals are prone to scale mismatch and optimization conflicts.To address these challenges, we propose a robust medical alignment paradigm. We first construct a holistic multi-dimensional medical alignment matrix that decomposes alignment objectives into four categories: fundamental capabilities, expert knowledge, online feedback, and format specifications. Within each category, we establish a closed loop of where observable metrics inform attributable diagnosis, which in turn drives optimizable rewards, thereby providing fine-grained, high-resolution supervision signals for subsequent iterative optimization. To resolve gradient domination and optimization instability problem caused by heterogeneous signals, we further propose a unified optimization mechanism. This mechanism employs Reference-Frozen Normalization to align reward scales and implements a Tri-Factor Adaptive Dynamic Weighting strategy to achieve collaborative optimization that is weakness-oriented, risk-prioritized, and redundancy-reducing. Experimental results demonstrate the effectiveness of our proposed paradigm in real-world medical scenario evaluations, establishing a new paradigm for complex alignment in vertical domains.
- Abstract(参考訳): 近年,大規模言語モデルアライメントのための強化学習が急速に進展している一方で,これらのパラダイムをハイテイクな質問応答に転送することで,基本的なパラダイムミスマッチが明らかとなった。
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback)は、非常に高価であり、しばしば医学的事実の絶対的な正しさを反映しない好みのアノテーションに依存している。
Reinforcement Learning from Verifiable Rewards には効果的な自動検証機能がなく、複雑な臨床コンテキストを扱うのに苦労している。
一方、医療アライメントには、正確性、安全性、コンプライアンスを同時に最適化する必要があるが、多目的の不均一な報酬信号は、ミスマッチや最適化の競合を拡大しがちであり、これらの課題に対処するために、堅牢な医療アライメントパラダイムを提案する。
まず、アライメントの目的を基本能力、専門知識、オンラインフィードバック、フォーマット仕様の4つのカテゴリに分解する総合的な多次元医療アライメントマトリックスを構築する。
各カテゴリにおいて、観測可能なメトリクスが帰属診断を知らせる閉ループを確立し、それによって最適化可能な報酬を駆動し、その後の反復最適化のためのきめ細かい高精細な監視信号を提供する。
等質信号による勾配支配と最適化不安定性問題を解決するため,さらに統一的な最適化機構を提案する。
このメカニズムでは、報酬スケールを調整するために参照Frozen正規化を採用し、弱点指向、リスク優先順位付け、冗長性低減といった協調最適化を実現するために、Tri-Factor Adaptive Dynamic Weighting戦略を実装している。
実世界の医療シナリオ評価において提案したパラダイムの有効性を実証し,垂直領域における複雑なアライメントのための新たなパラダイムを構築した。
関連論文リスト
- Is Softmax Loss All You Need? A Principled Analysis of Softmax-family Loss [91.61796429377041]
ソフトマックスの損失は、分類とランキングのタスクにおいて最も広く使用されるサロゲートの目標の1つである。
本研究では,異なるサロゲートが分類とランキングの指標との整合性を達成するかどうかを考察し,それらの勾配ダイナミクスを分析して,異なる収束挙動を明らかにする。
本研究は,大規模機械学習アプリケーションにおける損失選択の実践的ガイダンスとして,原則的基礎を確立した。
論文 参考訳(メタデータ) (2026-01-30T09:24:52Z) - Optimizing the Adversarial Perturbation with a Momentum-based Adaptive Matrix [13.862664606369014]
本稿では, 運動量に基づく新しい攻撃AdaMIを提案し, 摂動を興味深い運動量に基づく適応行列で最適化する。
AdaMIは凸問題に対する最適収束を証明し、MI-FGSMの非収束問題に対処していることを示す。
論文 参考訳(メタデータ) (2025-12-16T08:35:18Z) - Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning [5.493679122639688]
医学的な質問応答には、ドメイン知識と論理的推論を統合する高度な推論が必要である。
そこで我々は,強化学習と嗜好駆動型推論改良を組み合わせた新しいフレームワークであるランキング優先強化最適化(RPRO)を提案する。
論文 参考訳(メタデータ) (2025-08-31T19:38:25Z) - Prompt Mechanisms in Medical Imaging: A Comprehensive Survey [18.072753363565322]
深層学習は医療画像に変革をもたらす。
しかし、その臨床導入は、データの不足、分散シフト、堅牢なタスクの一般化の必要性といった課題によって、しばしば妨げられている。
深層学習モデルを導くための重要な戦略として,プロンプトベースの方法論が登場している。
論文 参考訳(メタデータ) (2025-06-28T03:06:25Z) - HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models [23.158036246184174]
我々は,Med-VLMアライメントにおける2つの重要な課題に対処する新しいアプローチである階層型自己コントラスト・リワード(HSCR)を提案する。
HSCRは高品質な嗜好データを生成し、改善されたアライメントのためにニュアンス付きおよびコンテキスト対応の嗜好をキャプチャする。
論文 参考訳(メタデータ) (2025-06-01T03:11:00Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z) - Resource Planning for Hospitals Under Special Consideration of the
COVID-19 Pandemic: Optimization and Sensitivity Analysis [87.31348761201716]
新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。
BaBSim.Hospitalは離散イベントシミュレーションに基づく容量計画ツールである。
BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指しています。
論文 参考訳(メタデータ) (2021-05-16T12:38:35Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。