論文の概要: PIRF: Physics-Informed Reward Fine-Tuning for Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.20570v1
- Date: Wed, 24 Sep 2025 21:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.59339
- Title: PIRF: Physics-Informed Reward Fine-Tuning for Diffusion Models
- Title(参考訳): PIRF:拡散モデルのための物理インフォームド・リワード微調整
- Authors: Mingze Yuan, Pengfei Jin, Na Li, Quanzheng Li,
- Abstract要約: 物理インフォームド生成をスパース報酬最適化問題とし、物理制約の順守を報酬信号として扱う。
我々は、軌道レベルの報酬を計算し、それらの勾配を直接バックプロパゲートすることで、値近似を回避できる物理インフォームド・リワード微調整(PIRF)を導入する。
PIRFは、効率的なサンプリング体制下での優れた物理強制を一貫して達成し、科学的生成モデリングの進歩に対する報酬の微調整の可能性を強調している。
- 参考スコア(独自算出の注目度): 11.791955441600825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated strong generative capabilities across scientific domains, but often produce outputs that violate physical laws. We propose a new perspective by framing physics-informed generation as a sparse reward optimization problem, where adherence to physical constraints is treated as a reward signal. This formulation unifies prior approaches under a reward-based paradigm and reveals a shared bottleneck: reliance on diffusion posterior sampling (DPS)-style value function approximations, which introduce non-negligible errors and lead to training instability and inference inefficiency. To overcome this, we introduce Physics-Informed Reward Fine-tuning (PIRF), a method that bypasses value approximation by computing trajectory-level rewards and backpropagating their gradients directly. However, a naive implementation suffers from low sample efficiency and compromised data fidelity. PIRF mitigates these issues through two key strategies: (1) a layer-wise truncated backpropagation method that leverages the spatiotemporally localized nature of physics-based rewards, and (2) a weight-based regularization scheme that improves efficiency over traditional distillation-based methods. Across five PDE benchmarks, PIRF consistently achieves superior physical enforcement under efficient sampling regimes, highlighting the potential of reward fine-tuning for advancing scientific generative modeling.
- Abstract(参考訳): 拡散モデルは科学的領域全体で強力な生成能力を示してきたが、しばしば物理法則に違反した出力を生成する。
本稿では,物理インフォームド生成をスパース報酬最適化問題としてフレーミングすることで,物理制約の順守を報酬信号として扱う新しい視点を提案する。
この定式化は、報酬に基づくパラダイムの下で事前アプローチを統一し、拡散後サンプリング(DPS)スタイルの値関数近似(英語版)への依存(英語版)という共有ボトルネックを明らかにする。
これを解決するために、軌道レベルの報酬を計算し、それらの勾配を直接バックプロパゲートすることで、値近似をバイパスするPhysical-Informed Reward Fine-tuning (PIRF)を導入する。
しかし、単純な実装では、サンプル効率が低く、データの忠実度が損なわれている。
PIRFは,(1)物理に基づく報酬の時空間的局所性を活用する層ワイド・トランカットバックプロパゲーション法,(2)伝統的な蒸留法よりも効率を向上する重量ベース正規化法,の2つの主要な戦略により,これらの問題を緩和する。
5つのPDEベンチマークにおいて、PIRFは効率的なサンプリング体制下での優れた物理強制を一貫して達成し、科学的生成モデリングの進歩に対する報酬の微調整の可能性を強調している。
関連論文リスト
- A-FloPS: Accelerating Diffusion Sampling with Adaptive Flow Path Sampler [21.134678093577193]
A-FloPSは、フローベースの生成モデルのための原則化された、トレーニング不要のフレームワークである。
A-FloPSは, 試料品質と効率の両面において, 最先端のトレーニング不要サンプリング器より一貫して優れていることを示す。
5ドルの関数評価で、A-FloPSはFIDを大幅に低くし、よりシャープでコヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2025-08-22T13:28:16Z) - Physics-Constrained Fine-Tuning of Flow-Matching Models for Generation and Inverse Problems [3.3811247908085855]
本稿では、物理制約を強制し、科学的システムにおける逆問題を解決するための微調整フローマッチング生成モデルの枠組みを提案する。
我々のアプローチは、生成的モデリングと科学的推論を橋渡し、シミュレーション強化された発見と物理システムのデータ効率のモデリングのための新たな道を開く。
論文 参考訳(メタデータ) (2025-08-05T09:32:04Z) - Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [58.8094854658848]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。
本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。
KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文 参考訳(メタデータ) (2025-07-01T05:55:28Z) - Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation [21.321570407292263]
本稿では,PDE残差と代数的関係の両方の物理制約をフローマッチングの対象に組み込む生成フレームワークである物理ベースフローマッチングを提案する。
提案手法では,FMよりも高精度な物理残差を最大8倍に抑えながら,分布精度では既存アルゴリズムよりも明らかに優れていることを示す。
論文 参考訳(メタデータ) (2025-06-10T09:13:37Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。