論文の概要: Spatially-Adaptive Pixelwise Networks for Fast Image Translation
- arxiv url: http://arxiv.org/abs/2012.02992v1
- Date: Sat, 5 Dec 2020 10:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:06:49.859916
- Title: Spatially-Adaptive Pixelwise Networks for Fast Image Translation
- Title(参考訳): 高速画像変換のための空間適応型ピクセルワイズネットワーク
- Authors: Tamar Rott Shaham, Michael Gharbi, Richard Zhang, Eli Shechtman, Tomer
Michaeli
- Abstract要約: 高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
- 参考スコア(独自算出の注目度): 57.359250882770525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new generator architecture, aimed at fast and efficient
high-resolution image-to-image translation. We design the generator to be an
extremely lightweight function of the full-resolution image. In fact, we use
pixel-wise networks; that is, each pixel is processed independently of others,
through a composition of simple affine transformations and nonlinearities. We
take three important steps to equip such a seemingly simple function with
adequate expressivity. First, the parameters of the pixel-wise networks are
spatially varying so they can represent a broader function class than simple
1x1 convolutions. Second, these parameters are predicted by a fast
convolutional network that processes an aggressively low-resolution
representation of the input; Third, we augment the input image with a
sinusoidal encoding of spatial coordinates, which provides an effective
inductive bias for generating realistic novel high-frequency image content. As
a result, our model is up to 18x faster than state-of-the-art baselines. We
achieve this speedup while generating comparable visual quality across
different image resolutions and translation domains.
- Abstract(参考訳): 高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
我々は、全解像度画像の極めて軽量な機能としてジェネレータを設計する。
実際には、各ピクセルは互いに独立して処理され、単純なアフィン変換と非線形性の合成によって処理される。
このような一見単純な関数に適切な表現性を持たせるために、3つの重要なステップを踏む。
第一に、ピクセルワイズネットワークのパラメータは空間的に変化しており、単純な1x1畳み込みよりも広い関数クラスを表現できる。
第2に、これらのパラメータは、入力の積極的な低解像度表現を処理する高速畳み込みネットワークによって予測され、第3に、入力画像を空間座標の正弦波符号化で拡張することで、現実的な新しい高周波画像コンテンツを生成するための効果的なインダクティブバイアスを提供する。
その結果、我々のモデルは最先端のベースラインよりも最大18倍高速である。
このスピードアップを実現し、異なる画像解像度と翻訳ドメインで同等のビジュアル品質を生成します。
関連論文リスト
- OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Efficient Encoding of Graphics Primitives with Simplex-based Structures [0.8158530638728501]
本稿では,グラフィックプリミティブを符号化するシンプルな手法を提案する。
提案手法は, 2次元画像整合作業において, ベースライン法に比べて9.4%少ない時間で画像の整合を行うことができる。
論文 参考訳(メタデータ) (2023-11-26T21:53:22Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Single Image Super-Resolution via a Dual Interactive Implicit Neural
Network [5.331665215168209]
本稿では,任意のスケール因子における単一画像の超解像処理のための新しい暗黙的ニューラルネットワークを提案する。
公開されているベンチマークデータセット上で、最先端技術に対するアプローチの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2022-10-23T02:05:19Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - High-Resolution Photorealistic Image Translation in Real-Time: A
Laplacian Pyramid Translation Network [23.981019687483506]
閉形式ラプラシアピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。
この2つのタスクを同時に実行するために,ラプラシアンピラミッド翻訳ネットワーク(N)を提案する。
我々のモデルは高解像度の特徴写像を処理し、画像の詳細を忠実に保存することで消費される重い計算の大部分を回避している。
論文 参考訳(メタデータ) (2021-05-19T15:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。