論文の概要: Scalable Adaptive Computation for Iterative Generation
- arxiv url: http://arxiv.org/abs/2212.11972v1
- Date: Thu, 22 Dec 2022 18:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:43:21.792383
- Title: Scalable Adaptive Computation for Iterative Generation
- Title(参考訳): 反復生成のためのスケーラブル適応計算
- Authors: Allan Jabri, David Fleet, Ting Chen
- Abstract要約: 本稿では,情報分布に応じて入力に適応的に計算を割り当てるニューラルネットワークアーキテクチャであるRecurrent Interface Network (RIN)を提案する。
RINの隠れたユニットは、インプットに局所的に接続されるインターフェイスと、インプットから切り離され、グローバルに情報を交換できるラテントに分割される。
RINは、カスケードやガイダンスを使わずに最先端の画像とビデオを生成するが、ドメインに依存しないため、特殊な2Dや3D U-Netに比べて最大10$timesの効率がよい。
- 参考スコア(独自算出の注目度): 13.339848496653465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Recurrent Interface Network (RIN), a neural net architecture
that allocates computation adaptively to the input according to the
distribution of information, allowing it to scale to iterative generation of
high-dimensional data. Hidden units of RINs are partitioned into the interface,
which is locally connected to inputs, and latents, which are decoupled from
inputs and can exchange information globally. The RIN block selectively reads
from the interface into latents for high-capacity processing, with incremental
updates written back to the interface. Stacking multiple blocks enables
effective routing across local and global levels. While routing adds overhead,
the cost can be amortized in recurrent computation settings where inputs change
gradually while more global context persists, such as iterative generation
using diffusion models. To this end, we propose a latent self-conditioning
technique that "warm-starts" the latents at each iteration of the generation
process. When applied to diffusion models operating directly on pixels, RINs
yield state-of-the-art image and video generation without cascades or guidance,
while being domain-agnostic and up to 10$\times$ more efficient compared to
specialized 2D and 3D U-Nets.
- Abstract(参考訳): 本稿では,情報分布に応じて入力に適応的に計算を割り当てるニューラルネットワークアーキテクチャであるRecurrent Interface Network (RIN)を提案する。
rinの隠れたユニットは、入力にローカルに接続されたインターフェースと、入力から切り離され、情報をグローバルに交換できるラテントに分割される。
RINブロックは、高容量処理のためにインターフェイスからラテントに選択的に読み込み、インクリメンタルな更新をインターフェースに書き戻す。
複数のブロックを積み重ねることで、ローカルレベルとグローバルレベルの効果的なルーティングが可能になる。
ルーティングがオーバーヘッドを増加させる一方で、インプットが徐々に変化し、さらにグローバルコンテキストが持続するリカレントな計算環境では、拡散モデルを用いた反復生成など、コストを償却することができる。
そこで本研究では, 生成過程の各イテレーションにおいて, 潜伏者を「ウォームスタート」させる潜伏型セルフコンディショニング手法を提案する。
ピクセル上で直接動作する拡散モデルに適用すると、RINはカスケードやガイダンスを使わずに最先端の画像とビデオを生成するが、ドメインに依存しず、特殊な2Dや3D U-Netに比べて最大10$\times$の効率がよい。
関連論文リスト
- Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。