論文の概要: Scalable Adaptive Computation for Iterative Generation
- arxiv url: http://arxiv.org/abs/2212.11972v2
- Date: Wed, 14 Jun 2023 03:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:33:59.856554
- Title: Scalable Adaptive Computation for Iterative Generation
- Title(参考訳): 反復生成のためのスケーラブル適応計算
- Authors: Allan Jabri, David Fleet, Ting Chen
- Abstract要約: リカレントインタフェースネットワーク(Recurrent Interface Networks, RIN)は、データ次元からコア計算を分離するアテンションベースのアーキテクチャである。
RINは、潜在トークンとデータトークンの間の情報の読み込みと書き込みにクロスアテンションを使用する、潜在トークンのセットに計算の大部分を集中する。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングする。
- 参考スコア(独自算出の注目度): 13.339848496653465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural data is redundant yet predominant architectures tile computation
uniformly across their input and output space. We propose the Recurrent
Interface Networks (RINs), an attention-based architecture that decouples its
core computation from the dimensionality of the data, enabling adaptive
computation for more scalable generation of high-dimensional data. RINs focus
the bulk of computation (i.e. global self-attention) on a set of latent tokens,
using cross-attention to read and write (i.e. route) information between latent
and data tokens. Stacking RIN blocks allows bottom-up (data to latent) and
top-down (latent to data) feedback, leading to deeper and more expressive
routing. While this routing introduces challenges, this is less problematic in
recurrent computation settings where the task (and routing problem) changes
gradually, such as iterative generation with diffusion models. We show how to
leverage recurrence by conditioning the latent tokens at each forward pass of
the reverse diffusion process with those from prior computation, i.e. latent
self-conditioning. RINs yield state-of-the-art pixel diffusion models for image
and video generation, scaling to 1024X1024 images without cascades or guidance,
while being domain-agnostic and up to 10X more efficient than 2D and 3D U-Nets.
- Abstract(参考訳): 自然データは冗長だが支配的なアーキテクチャであり、入出力空間を均一に計算する。
本稿では,データ次元からコア計算を分離し,よりスケーラブルな高次元データ生成のための適応計算を可能にする注目型アーキテクチャであるRecurrent Interface Networks (RINs)を提案する。
RINは、潜在トークンとデータトークンの間の情報(すなわちルート)を読み書きするためにクロスアテンションを使用して、計算の大部分(すなわちグローバルな自己アテンション)を潜在トークンの集合にフォーカスする。
RINブロックの積み重ねにより、ボトムアップ(データから遅延)とトップダウン(データに近い)のフィードバックが可能になり、より深く表現力のあるルーティングが可能になる。
このルーティングには課題が伴うが、拡散モデルによる反復生成のようなタスク(およびルーティング問題)が徐々に変化する繰り返し計算設定では問題が少なくなる。
逆拡散過程の各前方通過に潜時トークンを前処理、すなわち潜時自己条件で条件付けすることで再帰性を活用する方法を示す。
RINは、画像生成とビデオ生成のための最先端のピクセル拡散モデルを生成し、カスケードやガイダンスなしで1024X1024画像にスケーリングすると同時に、ドメインに依存しず、2Dや3D U-Netよりも最大10倍効率が高い。
関連論文リスト
- Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。