論文の概要: g-DPO: Scalable Preference Optimization for Protein Language Models
- arxiv url: http://arxiv.org/abs/2510.19474v1
- Date: Wed, 22 Oct 2025 11:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.725548
- Title: g-DPO: Scalable Preference Optimization for Protein Language Models
- Title(参考訳): g-DPO:タンパク質言語モデルのスケーラブルな選好最適化
- Authors: Constance Ferragu, Jonathan D. Ziegler, Nicolas Deutschmann, Arthur Lindoulsi, Eli Bixby, Cradle ML Team,
- Abstract要約: g-DPOは、トレーニング信号を保持しながら冗長なペアを吐き出すフレームワークであり、(ii)グループベースの近似を用いて確率計算を補正する。
3つのタンパク質工学の課題の中で、g-DPOは標準のDPOと統計的に区別がつかず、1.8倍から3.7倍の速度で収束する。
- 参考スコア(独自算出の注目度): 0.9236074230806578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is an effective approach for aligning protein language models with experimental design goals. However, DPO faces a scalability bottleneck: the number of possible training pairs grows quadratically with the number of labeled sequences, leading to prohibitive training times even for modestly sized datasets. We introduce g-DPO, a framework that (i) uses sequence space clustering to prune redundant pairs while preserving training signal, and (ii) amortizes likelihood computations with group-based approximations. Across three protein engineering tasks, g-DPO maintains in-silico and in-vitro performance that is statistically indistinguishable from standard DPO, while converging 1.8 to 3.7 times faster, with greater gains expected as the size of the dataset increases.
- Abstract(参考訳): 直接選好最適化(DPO)は、タンパク質言語モデルと実験的な設計目標を整合させる効果的なアプローチである。
しかし、DPOはスケーラビリティのボトルネックに直面しており、可能なトレーニングペアの数はラベル付きシーケンスの数で2次的に増加するため、控えめなサイズのデータセットであっても、トレーニング時間が禁止される。
我々はg-DPOというフレームワークを紹介します。
i) トレーニング信号を保持しながら、配列空間クラスタリングを用いて冗長なペアをプルークし、
(ii)群に基づく近似を用いて確率計算を補正する。
3つのタンパク質工学タスクの中で、g-DPOは、標準DPOと統計的に区別できない、シリコン内およびビトロ内のパフォーマンスを維持し、データセットのサイズが大きくなるにつれて、1.8倍から3.7倍の速度で収束する。
関連論文リスト
- Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Reinforcing Diffusion Models by Direct Group Preference Optimization [19.195805549362074]
グループ選好最適化(DGPO)は、グループ内のサンプルの相対情報を利用するグループレベルの選好から直接学習する。
その結果、DGPOは既存の最先端手法の約20倍の速度でトレーニングを行い、ドメイン内および外部メトリクスの報酬よりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-10-09T16:40:43Z) - Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。
本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。
3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文 参考訳(メタデータ) (2025-07-27T05:20:13Z) - Protein Inverse Folding From Structure Feedback [78.27854221882572]
本稿では,タンパク質の折りたたみモデルからのフィードバックを用いて,逆折りたたみモデルを微調整する手法を提案する。
CATH 4.2 テストセットの結果,DPO の微調整により平均 TM-Score が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-03T16:02:12Z) - Towards Self-Improvement of Diffusion Models via Group Preference Optimization [10.6096255671291]
グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-05-16T10:04:57Z) - Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T11:07:35Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。