論文の概要: ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.03425v1
- Date: Tue, 03 Feb 2026 11:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.429638
- Title: ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning
- Title(参考訳): ConsistentRFT:フローベース強化微細調整における視覚幻覚の低減
- Authors: Xiaofeng Tan, Jun Liu, Yuanting Fan, Bin-Bin Gao, Xi Jiang, Xiaochen Chen, Jinlong Peng, Chengjie Wang, Hongsong Wang, Feng Zheng,
- Abstract要約: フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
- 参考スコア(独自算出の注目度): 85.20505958752928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Fine-Tuning (RFT) on flow-based models is crucial for preference alignment. However, they often introduce visual hallucinations like over-optimized details and semantic misalignment. This work preliminarily explores why visual hallucinations arise and how to reduce them. We first investigate RFT methods from a unified perspective, and reveal the core problems stemming from two aspects, exploration and exploitation: (1) limited exploration during stochastic differential equation (SDE) rollouts, leading to an over-emphasis on local details at the expense of global semantics, and (2) trajectory imitation process inherent in policy gradient methods, distorting the model's foundational vector field and its cross-step consistency. Building on this, we propose ConsistentRFT, a general framework to mitigate these hallucinations. Specifically, we design a Dynamic Granularity Rollout (DGR) mechanism to balance exploration between global semantics and local details by dynamically scheduling different noise sources. We then introduce a Consistent Policy Gradient Optimization (CPGO) that preserves the model's consistency by aligning the current policy with a more stable prior. Extensive experiments demonstrate that ConsistentRFT significantly mitigates visual hallucinations, achieving average reductions of 49\% for low-level and 38\% for high-level perceptual hallucinations. Furthermore, ConsistentRFT outperforms other RFT methods on out-of-domain metrics, showing an improvement of 5.1\% (v.s. the baseline's decrease of -0.4\%) over FLUX1.dev. This is \href{https://xiaofeng-tan.github.io/projects/ConsistentRFT}{Project Page}.
- Abstract(参考訳): フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
しかし、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
1) 確率微分方程式 (SDE) のロールアウト時の限定的な探索により,グローバルな意味論を犠牲にして局所的な詳細が過度に強調され, (2) 方針勾配法に固有の軌道模倣プロセス, モデルの基底ベクトル場を歪ませること, および横断的な整合性が得られる。
そこで我々は,これらの幻覚を緩和するための一般的なフレームワークであるConsistentRFTを提案する。
具体的には、異なるノイズ源を動的にスケジューリングすることにより、グローバルセマンティクスと局所的な詳細の探索のバランスをとるための動的粒度ロールアウト(DGR)機構を設計する。
次に、現在のポリシーをより安定した事前に整合させることにより、モデルの整合性を維持する一貫性ポリシー勾配最適化(CPGO)を導入する。
広汎な実験により、ConsistentRFTは視覚幻覚を著しく軽減し、低レベルでは49\%、高レベルの知覚幻覚では38\%の平均的な減少を達成することが示された。
さらに、ConsistentRFTはドメイン外のメトリクスで他のRTT法よりも優れており、FLUX1.devよりも5.1\%(v.s.ベースラインの-0.4\%)改善されている。
これは \href{https://xiaofeng-tan.github.io/projects/ConsistentRFT}{Project Page} です。
関連論文リスト
- Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios [9.82847623835017]
GLOWDeblurは、畳み込みベースの事前再構成とドメインアライメントモジュールと軽量な拡散バックボーンを組み合わせた、一般化可能なreaL-wOrld Light Weight Deblurモデルである。
本稿では,Blur Pattern Pretraining (BPP)を提案する。
我々はさらに、高度劣化下でぼやけた前兆を強化するためにMoSeG(MoSeG)を導入し、それをGLOWDeblur(GLOWDeblur)に統合する。
論文 参考訳(メタデータ) (2026-01-10T11:01:31Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - FedHL: Federated Learning for Heterogeneous Low-Rank Adaptation via Unbiased Aggregation [6.5370850242187855]
フェデレートラーニング(FL)は、分散データソースを使用したファンデーションモデル(FM)の微調整を容易にする。
Low-Rank Adaptation (LoRA) は通信コストの低さと高い性能で人気を博している。
既存の手法ではパラメータの切り離しとバイアス付き勾配更新による公式収束保証が欠如している。
論文 参考訳(メタデータ) (2025-05-24T04:12:12Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - ResFlow: Fine-tuning Residual Optical Flow for Event-based High Temporal Resolution Motion Estimation [50.80115710105251]
イベントカメラは、高時間分解能(HTR)モーション推定に重要な可能性を秘めている。
イベントデータを用いてHTR光流を推定するための残差に基づくパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。