論文の概要: Region-Normalized DPO for Medical Image Segmentation under Noisy Judges
- arxiv url: http://arxiv.org/abs/2601.23222v1
- Date: Fri, 30 Jan 2026 17:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.593296
- Title: Region-Normalized DPO for Medical Image Segmentation under Noisy Judges
- Title(参考訳): うるさい判断下での医用画像分割のための領域Normalized DPO
- Authors: Hamza Kalisch, Constantin Seibold, Jens Kleesiek, Ken Herrmann, Frederic Jonske,
- Abstract要約: Region-Normalized DPOは、マスク間の不一致領域のサイズによって好みの更新を正規化するセグメンテーション対応の目的である。
追加のピクセルアノテーションを必要とせずに、好みベースの微調整、標準のDPO、強力なベースラインを安定させる。
- 参考スコア(独自算出の注目度): 7.10111238784554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While dense pixel-wise annotations remain the gold standard for medical image segmentation, they are costly to obtain and limit scalability. In contrast, many deployed systems already produce inexpensive automatic quality-control (QC) signals like model agreement, uncertainty measures, or learned mask-quality scores which can be used for further model training without additional ground-truth annotation. However, these signals can be noisy and biased, making preference-based fine-tuning susceptible to harmful updates. We study Direct Preference Optimization (DPO) for segmentation from such noisy judges using proposals generated by a supervised base segmenter trained on a small labeled set. We find that outcomes depend strongly on how preference pairs are mined: selecting the judge's top-ranked proposal can improve peak performance when the judge is reliable, but can amplify harmful errors under weaker judges. We propose Region-Normalized DPO (RN-DPO), a segmentation-aware objective which normalizes preference updates by the size of the disagreement region between masks, reducing the leverage of harmful comparisons and improving optimization stability. Across two medical datasets and multiple regimes, RN-DPO improves sustained performance and stabilizes preference-based fine-tuning, outperforming standard DPO and strong baselines without requiring additional pixel annotations.
- Abstract(参考訳): 密度の高いピクセル単位のアノテーションは、医用画像セグメンテーションのゴールドスタンダードであり続けているが、スケーラビリティの獲得と制限には費用がかかる。
対照的に、デプロイされたシステムの多くは、モデル合意、不確実性対策、学習されたマスク品質スコアなどの安価な自動品質制御(QC)シグナルをすでに生成している。
しかし、これらの信号は騒々しく偏りがあり、好みに基づいた微調整が有害な更新に影響を受けやすい。
教師付きベースセグメンタが小さなラベル付き集合で訓練した提案を用いて,このようなノイズの多い判断者からのセグメンテーションのための直接選好最適化(DPO)について検討した。
審査員のトップランクの提案を選択することは、審査員が信頼できるときにピークパフォーマンスを向上させることができるが、弱い審査員の下で有害なエラーを増幅することができる。
本研究では、マスク間の不一致領域の大きさによる優先更新を正規化し、有害な比較の活用を低減し、最適化安定性を向上させるセグメンテーション対応DPO(RN-DPO)を提案する。
2つの医療データセットと複数のレシエーションにわたって、RN-DPOは、持続的なパフォーマンスを改善し、設定ベースの微調整、標準DPO、強力なベースラインを、追加のピクセルアノテーションを必要とせずに安定化する。
関連論文リスト
- AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment [25.526336903358757]
オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
論文 参考訳(メタデータ) (2025-11-12T14:51:59Z) - Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models [38.27881260102189]
Diffusion-SDPOは、勝者勾配との整合性に応じて、敗者勾配を適応的にスケーリングすることで勝者を保護する安全な更新ルールである。
提案手法は,既存のDPOスタイルのアライメントフレームワークと広く互換性があり,限界計算オーバーヘッドのみを付加する。
論文 参考訳(メタデータ) (2025-11-05T09:30:49Z) - Lightweight Robust Direct Preference Optimization [26.99327564250612]
DPO-PRO (DPO with Preference Robustness) はDPOに基づく頑健な微調整アルゴリズムである。
従来のDROベースの変種とは異なり、DPO-PROは好みの不確実性にのみ焦点をあて、不必要な保守性を避け、無視可能な計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2025-10-27T17:55:06Z) - On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。