論文の概要: Reinforcement Learning from Diffusion Feedback: Q* for Image Search
- arxiv url: http://arxiv.org/abs/2311.15648v1
- Date: Mon, 27 Nov 2023 09:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:26:57.024139
- Title: Reinforcement Learning from Diffusion Feedback: Q* for Image Search
- Title(参考訳): 拡散フィードバックによる強化学習:画像検索のためのq*
- Authors: Aboli Marathe
- Abstract要約: モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 2.5835347022640254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models are steadily gaining personalization
capabilities at the cost of fine-tuning or data augmentation. We present two
models for image generation using model-agnostic learning that align semantic
priors with generative capabilities. RLDF, or Reinforcement Learning from
Diffusion Feedback, is a singular approach for visual imitation through
prior-preserving reward function guidance. This employs Q-learning (with
standard Q*) for generation and follows a semantic-rewarded trajectory for
image search through finite encoding-tailored actions. The second proposed
method, noisy diffusion gradient, is optimization driven. At the root of both
methods is a special CFG encoding that we propose for continual semantic
guidance. Using only a single input image and no text input, RLDF generates
high-quality images over varied domains including retail, sports and
agriculture showcasing class-consistency and strong visual diversity. Project
website is available at https://infernolia.github.io/RLDF.
- Abstract(参考訳): 大きな視覚言語モデルでは、微調整やデータ拡張のコストで、パーソナライズ機能が着実に向上しています。
セマンティック先行と生成能力とを一致させるモデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDF(Reinforcement Learning from Diffusion Feedback)は、事前保存型報酬関数誘導による視覚模倣のための特異なアプローチである。
これは生成にQ-ラーニング(標準Q*)を使用し、有限エンコーディング調整アクションによる画像検索のセマンティック・リワード・トラジェクトリに従う。
第2の手法であるノイズ拡散勾配は最適化駆動である。
両手法のルーツは、連続的な意味指導を提案する特別なCFG符号化である。
RLDFは、単一の入力画像のみを使用し、テキスト入力を行わず、小売、スポーツ、農業などの様々な領域で高品質な画像を生成する。
プロジェクトwebサイトはhttps://infernolia.github.io/rldf.com/。
関連論文リスト
- Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文 参考訳(メタデータ) (2024-10-24T16:17:18Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium [0.0]
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-01-26T05:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。