論文の概要: Radiology Report Generation via Multi-objective Preference Optimization
- arxiv url: http://arxiv.org/abs/2412.08901v2
- Date: Fri, 13 Dec 2024 02:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:43:08.530467
- Title: Radiology Report Generation via Multi-objective Preference Optimization
- Title(参考訳): 多目的選好最適化による放射線学レポート生成
- Authors: Ting Xiao, Lei Shi, Peng Liu, Zhe Wang, Chenjia Bai,
- Abstract要約: 本稿では,MPO(Multi-objective Preference Optimization)を用いた新しいRRG手法を提案する。
提案手法は,1つのモデルで異なる選好に適合するレポートを生成し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 9.158978491482276
- License:
- Abstract: Automatic Radiology Report Generation (RRG) is an important topic for alleviating the substantial workload of radiologists. Existing RRG approaches rely on supervised regression based on different architectures or additional knowledge injection,while the generated report may not align optimally with radiologists' preferences. Especially, since the preferences of radiologists are inherently heterogeneous and multidimensional, e.g., some may prioritize report fluency, while others emphasize clinical accuracy. To address this problem,we propose a new RRG method via Multi-objective Preference Optimization (MPO) to align the pre-trained RRG model with multiple human preferences, which can be formulated by multi-dimensional reward functions and optimized by multi-objective reinforcement learning (RL). Specifically, we use a preference vector to represent the weight of preferences and use it as a condition for the RRG model. Then, a linearly weighed reward is obtained via a dot product between the preference vector and multi-dimensional reward. Next,the RRG model is optimized to align with the preference vector by optimizing such a reward via RL. In the training stage,we randomly sample diverse preference vectors from the preference space and align the model by optimizing the weighted multi-objective rewards, which leads to an optimal policy on the entire preference space. When inference,our model can generate reports aligned with specific preferences without further fine-tuning. Extensive experiments on two public datasets show the proposed method can generate reports that cater to different preferences in a single model and achieve state-of-the-art performance.
- Abstract(参考訳): 放射線学報告自動生成(RRG)は,放射線科医の作業負荷を軽減する重要な課題である。
既存のRRGアプローチは異なるアーキテクチャや追加の知識注入に基づく教師付き回帰に依存しているが、生成された報告は放射線学者の好みと最適に一致しないかもしれない。
特に放射線医の嗜好は本質的に異質で多次元であるため、例えば、報告の流速を優先する者もいれば、臨床精度を重視する者もいる。
この問題に対処するために,多次元の報酬関数で定式化でき,多目的強化学習(RL)で最適化できる,事前学習されたRRGモデルを複数の人間の嗜好に合わせるために,MPO(Multi-objective Preference Optimization)を用いた新しいRRG法を提案する。
具体的には、選好ベクトルを用いて好みの重みを表現し、RRGモデルの条件として使用する。
そして、選好ベクトルと多次元報酬との間のドット積を介して線形重み付き報酬を得る。
次に、RRGモデルは、RLを介してそのような報酬を最適化することにより、選好ベクトルと整合するように最適化される。
トレーニング段階では、選好空間から多様な選好ベクトルをランダムにサンプリングし、重み付けされた多目的報酬を最適化することによりモデルを調整する。
推論を行うと、モデルはさらに微調整することなく、特定の好みに沿ったレポートを生成することができる。
2つの公開データセットに対する大規模な実験により、提案手法は1つのモデルで異なる選好に対応するレポートを生成し、最先端のパフォーマンスを達成することができる。
関連論文リスト
- Query Optimization for Parametric Knowledge Refinement in Retrieval-Augmented Large Language Models [26.353428245346166]
Extract-Refine-Retrieve-Read (ERRR)フレームワークは、Retrieval-Augmented Generation (RAG)システムにおける事前検索情報ギャップを埋めるように設計されている。
RAGで使用される従来のクエリ最適化手法とは異なり、ERRRフレームワークはLarge Language Models (LLM) から知識を抽出することから始まる。
論文 参考訳(メタデータ) (2024-11-12T14:12:45Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval [32.104911827710936]
本稿では,大規模言語モデルに基づくDense Retrievalファインタニングのためのタスクレベル分散ロバスト最適化(tDRO)を提案する。
tDROはドメインの重みをパラメータ化し、拡張されたドメイン勾配で更新する。
実験では、大規模検索ベンチマークの最適改善と、最大30%のデータセット使用率の削減が示されている。
論文 参考訳(メタデータ) (2024-08-20T07:48:19Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Optimally Weighted Ensembles of Regression Models: Exact Weight
Optimization and Applications [0.0]
異なる回帰モデルを組み合わせることで、単一の(ベストな)回帰モデルを選択するよりも良い結果が得られることを示す。
不均一回帰モデルから最適重み付き線形結合を求める効率的な手法を概説する。
論文 参考訳(メタデータ) (2022-06-22T09:11:14Z) - i-Razor: A Differentiable Neural Input Razor for Feature Selection and
Dimension Search in DNN-Based Recommender Systems [8.992480061695138]
ノイズの特徴と不適切な埋め込み次元割り当てはレコメンダシステムの性能を低下させる可能性がある。
本稿では,特徴選択と次元探索を共同で最適化するニューラルインプット・レイザー (i-Razor) を提案する。
論文 参考訳(メタデータ) (2022-04-01T08:30:06Z) - Multi-Objective Hyperparameter Tuning and Feature Selection using Filter
Ensembles [0.8029049649310213]
特徴選択を多目的最適化タスクとして扱う。
まず、多目的モデルベースの最適化を使用する。
第二に、NSGA-IIベースのラッパーアプローチによる特徴選択である。
論文 参考訳(メタデータ) (2019-12-30T13:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。