論文の概要: Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.30257v1
- Date: Thu, 28 May 2026 17:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.582626
- Title: Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning
- Title(参考訳): 安定層:VLM-Scored Reinforcement Learningを用いた微細調整画像層分解モデル
- Authors: Ciara Rowles, Reshinth Adithyan, Nikhil Pinnaparaju, Vikram Voleti, Mark Boss,
- Abstract要約: 我々は、ペア化された監督の必要性を排除した強化学習フレームワークであるStable-Layersを紹介する。
画像毎に複数の候補分解をサンプリングし,視覚言語モデル(VLM)を用いて評価する。
基本モデルと比較して,より強い層分離,ブランク層やアーティファクト層を少なくし,層間再構成誤差を低減した分解をCrelloデータセット上で生成する。
- 参考スコア(独自算出の注目度): 11.163998944500323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision by fine-tuning a pretrained layer decomposition model using only feedback from a vision-language model (VLM). Starting from Qwen-Image-Layered, we apply Flow-GRPO with LoRA adaptation, sampling multiple candidate decompositions per image, scoring them with a VLM, and optimising the policy from group-relative advantages. The key challenge lies in designing a reliable reward signal: VLMs scoring samples in isolation tend to compress their judgements into a narrow band, leaving GRPO with little within-group variance to learn from. We address this with a two-stage evaluation pipeline that pairs structured per-sample scoring across five edit-centric criteria with a grid-based calibration step in which the VLM re-scores all candidates side-by-side. Stable-Layers produces decompositions with stronger layer separation, fewer blank or artifact-heavy layers, and lower per-layer reconstruction error on the Crello dataset compared to the base model.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)からのフィードバックのみを用いて,事前学習した層分解モデルを微調整することにより,相互監督の必要性を解消する強化学習フレームワークであるStable-Layersを提案する。
Qwen-Image-Layeredを皮切りに、Flow-GRPOをLoRA適応に適用し、画像毎に複数の候補分解をサンプリングし、VLMで評価し、グループ相対的な利点からポリシーを最適化する。
重要な課題は、信頼できる報酬シグナルを設計することである: VLMは標本を分離して評価し、その判断を狭い帯域に圧縮する傾向があり、GRPOはそこから学ぶべき内部のばらつきがほとんどない。
本研究は,VLMが全ての候補を並べて再スコアするグリッドベースのキャリブレーションステップを用いて,5つの編集中心の基準を2段階に分けた2段階評価パイプラインで対処する。
安定層は, より強い層分離, ブランク層やアーティファクト層を少なくし, Crelloデータセット上での層間再構成誤差をベースモデルと比較して小さくして分解する。
関連論文リスト
- Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space [78.36537400975298]
グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2026-03-13T04:35:13Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Evaluating Embedding Generalization: How LLMs, LoRA, and SLERP Shape Representational Geometry [0.0]
本研究では,SLERPモデルがタスク固有適応によって導入された超特殊化を緩和する程度について検討する。
モデルの4つのファミリを比較する: ゼロから訓練された非LLMエンコーダ、パラメータ係数法(LoRA)に適応したLLMベースのエンコーダ、LoRAを用いたLLMベースのエンコーダ、ベースウェイトにマージしたモデルスープ、および同じLoRA適応LLMはチェックポイントやステージをまたいだSLERPを用いてマージされる。
論文 参考訳(メタデータ) (2025-11-16T17:28:06Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning [28.111812077758845]
MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う場合、パフォーマンスは劣化する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論を改善する。
論文 参考訳(メタデータ) (2025-07-01T13:48:57Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。