論文の概要: Circuit Complexity Bounds for Visual Autoregressive Model
- arxiv url: http://arxiv.org/abs/2501.04299v1
- Date: Wed, 08 Jan 2025 06:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:57:05.962991
- Title: Circuit Complexity Bounds for Visual Autoregressive Model
- Title(参考訳): 視覚的自己回帰モデルのための回路複雑度境界
- Authors: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song,
- Abstract要約: 本稿では,Visual AutoRegressive(VAR)モデルの回路複雑性について検討し,本研究におけるバウンダリを確立する。
我々の第一結果は、VARモデルは、隠蔽次元が$d leq O(n)$と$mathrmpoly(n)$精度の均一な$mathsfTC0$しきい値回路によるシミュレーションと等価であることを示した。
印象的な性能にもかかわらず、VARモデルの表現力の限界を厳格に強調する最初の研究である。
- 参考スコア(独自算出の注目度): 23.991344681741058
- License:
- Abstract: Understanding the expressive ability of a specific model is essential for grasping its capacity limitations. Recently, several studies have established circuit complexity bounds for Transformer architecture. Besides, the Visual AutoRegressive (VAR) model has risen to be a prominent method in the field of image generation, outperforming previous techniques, such as Diffusion Transformers, in generating high-quality images. We investigate the circuit complexity of the VAR model and establish a bound in this study. Our primary result demonstrates that the VAR model is equivalent to a simulation by a uniform $\mathsf{TC}^0$ threshold circuit with hidden dimension $d \leq O(n)$ and $\mathrm{poly}(n)$ precision. This is the first study to rigorously highlight the limitations in the expressive power of VAR models despite their impressive performance. We believe our findings will offer valuable insights into the inherent constraints of these models and guide the development of more efficient and expressive architectures in the future.
- Abstract(参考訳): 特定のモデルの表現能力を理解することは、そのキャパシティの限界を理解するのに不可欠である。
近年,Transformerアーキテクチャの回路複雑性境界が確立されている。
さらに、Visual Auto Regressive (VAR) モデルは画像生成の分野で顕著な手法となり、Diffusion Transformers などの従来の技術よりも高品質な画像を生成する。
本稿では,VARモデルの回路複雑性を考察し,本研究におけるバウンダリを確立する。
我々の第一結果は、VARモデルは、隠蔽次元が$d \leq O(n)$と$\mathrm{poly}(n)$精度の均一な$\mathsf{TC}^0$しきい値回路によるシミュレーションと等価であることを示した。
印象的な性能にもかかわらず、VARモデルの表現力の限界を厳格に強調する最初の研究である。
私たちの発見は、これらのモデルの本質的な制約に関する貴重な洞察を与え、より効率的で表現力のあるアーキテクチャの開発を導くものだと考えています。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - Converting Transformers to Polynomial Form for Secure Inference Over
Homomorphic Encryption [45.00129952368691]
ホモモルフィック暗号化(HE)は、ディープラーニングにおける最も有望なアプローチの1つである。
変換器を用いたHE上でのセキュアな推論のデモンストレーションとして,第1回変換器を紹介する。
我々のモデルは従来の手法に匹敵する結果をもたらし、同様のスケールのトランスフォーマーで性能ギャップを埋め、最先端のアプリケーションでHEが実現可能であることを裏付ける。
論文 参考訳(メタデータ) (2023-11-15T00:23:58Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。