論文の概要: Dual Reinforcement-Based Specification Generation for Image De-Rendering
- arxiv url: http://arxiv.org/abs/2103.01867v1
- Date: Tue, 2 Mar 2021 17:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 06:28:35.918682
- Title: Dual Reinforcement-Based Specification Generation for Image De-Rendering
- Title(参考訳): 画像デレンダリングのためのデュアル強化ベースの仕様生成
- Authors: Ramakanth Pasunuru, David Rosenberg, Gideon Mann, Mohit Bansal
- Abstract要約: まず, LSTM-RNN 対 Transformer Network の順序非依存グラフィックスプログラムのデコーダとしての有効性を検討した。
本稿では,デコーダのインダクティブバイアスを改善するためのポリシグラデーションに基づく強化学習手法を提案する。
2つのグラフィックプログラム生成データセットの最先端結果を得る。
- 参考スコア(独自算出の注目度): 72.56922708034881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning have led to promising progress in inferring
graphics programs by de-rendering computer-generated images. However, current
methods do not explore which decoding methods lead to better inductive bias for
inferring graphics programs. In our work, we first explore the effectiveness of
LSTM-RNN versus Transformer networks as decoders for order-independent graphics
programs. Since these are sequence models, we must choose an ordering of the
objects in the graphics programs for likelihood training. We found that the
LSTM performance was highly sensitive to the sequence ordering (random order
vs. pattern-based order), while Transformer performance was roughly independent
of the sequence ordering. Further, we present a policy gradient based
reinforcement learning approach for better inductive bias in the decoder via
multiple diverse rewards based both on the graphics program specification and
the rendered image. We also explore the combination of these complementary
rewards. We achieve state-of-the-art results on two graphics program generation
datasets.
- Abstract(参考訳): ディープラーニングの進歩は、コンピュータ生成画像のデレンダリングによるグラフィックプログラムの推論に有望な進歩をもたらした。
しかし、現在の手法では、どのデコード方法がグラフィックプログラムを推論するためのインダクティブバイアスを改善するかは検討されていない。
本研究では, LSTM-RNN 対 Transformer ネットワークを, 順序非依存なグラフィックスプログラムのためのデコーダとして有効性を検討した。
これらはシーケンスモデルであるため、可能性トレーニングのためにグラフィックプログラム内のオブジェクトの順序を選択する必要があります。
LSTMの性能はシーケンス順序(ランダム順序とパターンベースの順序)に非常に敏感であるが、トランスフォーマーの性能はシーケンス順序から大きく独立していた。
さらに,グラフィックプログラム仕様とレンダリング画像の両方に基づいて,多種多様な報酬によってデコーダの帰納的バイアスを改善するための,ポリシー勾配に基づく強化学習手法を提案する。
また,これら相補的な報酬の組み合わせについても検討する。
2つのグラフィックプログラム生成データセットの最先端結果を得る。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Generating Images with Sparse Representations [21.27273495926409]
画像の高次元化は、確率に基づく生成モデルのアーキテクチャとサンプリング効率の課題を示す。
JPEGのような一般的な画像圧縮法に触発された代替手法を提示し、画像を量子化された離散コサイン変換(DCT)ブロックに変換する。
本稿では,次の要素の条件分布を逐次的に予測するトランスフォーマに基づく自己回帰型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-05T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。