論文の概要: Stochastic Actor-Executor-Critic for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2112.07403v1
- Date: Tue, 14 Dec 2021 13:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:00:23.433136
- Title: Stochastic Actor-Executor-Critic for Image-to-Image Translation
- Title(参考訳): 画像間翻訳のための確率的アクタ・エクゼクタ・クリティカル
- Authors: Ziwei Luo, Jing Hu, Xin Wang, Siwei Lyu, Bin Kong, Youbing Yin, Qi
Song, Xi Wu
- Abstract要約: 高次元連続状態と行動空間を含むため、画像から画像への変換を解決するためのモデルのない深層強化学習モデルを訓練することは困難である。
この手法の中心となるのは、アクター・エクサクタ・クライブ(SAEC)であり、これは、現実的な画像を生成するためのエグゼキュータを付加した、非政治的なアクター・クリティモデルである。
いくつかの画像から画像への変換タスクの実験は、提案したSAECの有効性とロバスト性を示している。
- 参考スコア(独自算出の注目度): 32.98351931316749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a model-free deep reinforcement learning model to solve
image-to-image translation is difficult since it involves high-dimensional
continuous state and action spaces. In this paper, we draw inspiration from the
recent success of the maximum entropy reinforcement learning framework designed
for challenging continuous control problems to develop stochastic policies over
high dimensional continuous spaces including image representation, generation,
and control simultaneously. Central to this method is the Stochastic
Actor-Executor-Critic (SAEC) which is an off-policy actor-critic model with an
additional executor to generate realistic images. Specifically, the actor
focuses on the high-level representation and control policy by a stochastic
latent action, as well as explicitly directs the executor to generate low-level
actions to manipulate the state. Experiments on several image-to-image
translation tasks have demonstrated the effectiveness and robustness of the
proposed SAEC when facing high-dimensional continuous space problems.
- Abstract(参考訳): 高次元連続状態と動作空間を含むため、画像から画像への変換を解決するためのモデルフリーの深層強化学習モデルのトレーニングは困難である。
本稿では,画像表現,生成,制御を含む高次元連続空間上の確率的政策を展開するために,連続制御問題に挑戦するために設計された最大エントロピー強化学習フレームワークの最近の成功から着想を得た。
この手法の中心は、現実のイメージを生成するために追加のエグゼキュータを備えたオフポリシーなアクタ-クリティックモデルである確率的アクタ-エグゼキュータ-クリティック(saec)である。
具体的には、アクターは確率的潜在行動によるハイレベルな表現と制御ポリシーに焦点を当て、実行者に国家を操作するための低レベルなアクションを生成するよう明示的に指示する。
いくつかの画像から画像への変換タスクの実験は、高次元連続空間問題に直面する際に提案したSAECの有効性と堅牢性を示した。
関連論文リスト
- Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Stochastic Planner-Actor-Critic for Unsupervised Deformable Image
Registration [33.72954116727303]
本稿では,大きく変形する医療画像の段階的登録を行う,新しい強化学習ベースのフレームワークを提案する。
本手法は2次元および3次元の医用画像データセットを用いて評価し,その一部は大きな変形を含む。
論文 参考訳(メタデータ) (2021-12-14T14:08:56Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。