論文の概要: Multi-Domain Image-to-Image Translation with Adaptive Inference Graph
- arxiv url: http://arxiv.org/abs/2101.03806v1
- Date: Mon, 11 Jan 2021 10:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 19:26:07.107215
- Title: Multi-Domain Image-to-Image Translation with Adaptive Inference Graph
- Title(参考訳): 適応推論グラフを用いたマルチドメイン画像から画像への変換
- Authors: The-Phuc Nguyen, St\'ephane Lathuili\`ere, Elisa Ricci
- Abstract要約: 現在のアートモデルは、複数のドメインの視覚的多様性を扱うために、大きくて深いモデルが必要です。
適応グラフ構造を用いてネットワーク容量を増やすことを提案する。
このアプローチは、ほぼ一定の計算コストを維持しながら、パラメータの調整可能な増加につながる。
- 参考スコア(独自算出の注目度): 29.673550911992365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the problem of multi-domain image-to-image
translation with particular attention paid to computational cost. In
particular, current state of the art models require a large and deep model in
order to handle the visual diversity of multiple domains. In a context of
limited computational resources, increasing the network size may not be
possible. Therefore, we propose to increase the network capacity by using an
adaptive graph structure. At inference time, the network estimates its own
graph by selecting specific sub-networks. Sub-network selection is implemented
using Gumbel-Softmax in order to allow end-to-end training. This approach leads
to an adjustable increase in number of parameters while preserving an almost
constant computational cost. Our evaluation on two publicly available datasets
of facial and painting images shows that our adaptive strategy generates better
images with fewer artifacts than literature methods
- Abstract(参考訳): 本稿では,特に計算コストに注意を払って,マルチドメイン画像から画像への変換の問題に対処する。
特に、芸術モデルの現在の状態は、複数のドメインの視覚的多様性を扱うために、大きくて深いモデルを必要とする。
限られた計算資源の文脈では、ネットワークサイズを増やすことは不可能である。
そこで本研究では,適応グラフ構造を用いてネットワーク容量を増やすことを提案する。
推測時、ネットワークは特定のサブネットワークを選択することで独自のグラフを推定する。
サブネットワークの選択は、エンドツーエンドのトレーニングを可能にするためにgumbel-softmaxを使用して実装される。
このアプローチは、ほぼ一定の計算コストを維持しながら、パラメータの調整可能な増加につながる。
顔画像と絵画画像の2つの公開データセットによる評価は、我々の適応戦略が文学的手法よりも少ないアーティファクト画像を生成することを示している。
関連論文リスト
- SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。