論文の概要: Generation is Required for Data-Efficient Perception
- arxiv url: http://arxiv.org/abs/2512.08854v2
- Date: Wed, 17 Dec 2025 20:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 14:03:03.13287
- Title: Generation is Required for Data-Efficient Perception
- Title(参考訳): データ効率のよい知覚には生成が必要である
- Authors: Jack Brady, Bernhard Schölkopf, Thomas Kipf, Simon Buchholz, Wieland Brendel,
- Abstract要約: 生成的および非生成的手法が構成的一般化を達成できるかどうかを考察する。
このインバージョンが、オンラインのグラデーションベースの検索や、生成的リプレイによるオフラインでどのように効率的に実行できるかを強調します。
- 参考スコア(独自算出の注目度): 75.98172302387214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been hypothesized that human-level visual perception requires a generative approach in which internal representations result from inverting a decoder. Yet today's most successful vision models are non-generative, relying on an encoder that maps images to representations without decoder inversion. This raises the question of whether generation is, in fact, necessary for machines to achieve human-level visual perception. To address this, we study whether generative and non-generative methods can achieve compositional generalization, a hallmark of human perception. Under a compositional data generating process, we formalize the inductive biases required to guarantee compositional generalization in decoder-based (generative) and encoder-based (non-generative) methods. We then show theoretically that enforcing these inductive biases on encoders is generally infeasible using regularization or architectural constraints. In contrast, for generative methods, the inductive biases can be enforced straightforwardly, thereby enabling compositional generalization by constraining a decoder and inverting it. We highlight how this inversion can be performed efficiently, either online through gradient-based search or offline through generative replay. We examine the empirical implications of our theory by training a range of generative and non-generative methods on photorealistic image datasets. We find that, without the necessary inductive biases, non-generative methods often fail to generalize compositionally and require large-scale pretraining or added supervision to improve generalization. By comparison, generative methods yield significant improvements in compositional generalization, without requiring additional data, by leveraging suitable inductive biases on a decoder along with search and replay.
- Abstract(参考訳): 人間のレベルの視覚知覚には、デコーダの反転によって内部表現が生じる生成的アプローチが必要であるという仮説が立てられている。
しかし、今日の最も成功したビジョンモデルは、デコーダの反転なしに画像を表現にマッピングするエンコーダに依存して、生成しない。
これは、機械が人間のレベルの視覚的知覚を達成するために、世代が実際に必要であるかどうかという問題を提起する。
そこで本研究では, 生成的および非生成的手法が, 人間の知覚の指標である構成的一般化を達成できるかどうかを考察する。
合成データ生成プロセスでは、デコーダベースの(生成的)およびエンコーダベースの(生成的)メソッドにおいて、構成一般化を保証するために必要な帰納的バイアスを定式化する。
次に、これらの帰納バイアスをエンコーダに強制することは、概して正規化やアーキテクチャ上の制約によって実現不可能であることを示す。
対照的に、生成法では、誘導バイアスを直接的に実施することができ、デコーダを制約し、それを反転させることで構成一般化を可能にする。
このインバージョンが、オンラインのグラデーションベースの検索や、生成的リプレイによるオフラインでどのように効率的に実行できるかを強調します。
我々は,フォトリアリスティック画像データセットにおける生成的および非生成的手法の訓練により,我々の理論がもたらす経験的意味について検討する。
帰納的バイアスがなければ、非生成的手法は構成を一般化できず、大規模な事前学習や、一般化を改善するための監督を必要とすることが多い。
比較して、生成法は、デコーダ上の適切な帰納バイアスと検索と再生を活用することにより、追加データを必要としない構成一般化の大幅な改善をもたらす。
関連論文リスト
- Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Towards Robust Blind Face Restoration with Codebook Lookup Transformer [94.48731935629066]
ブラインドフェイスの修復は、しばしば補助的なガイダンスを必要とする非常に不適切な問題である。
学習した個別のコードブックを小さなプロキシ空間に配置し,ブラインドフェイスの復元をコード予測タスクとすることを示す。
我々は、低品質顔のグローバルな構成とコンテキストをモデル化するトランスフォーマーベースの予測ネットワーク、CodeFormerを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:58:01Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Nonlinear Discrete Optimisation of Reversible Steganographic Coding [0.7614628596146599]
立体歪みは、忠実度に敏感な状況では許容できないかもしれない。
本研究では,非線型離散最適化問題として可逆なステガノグラフ符号化を定式化する。
混合整数線形プログラミングを実現するために線形化技術が開発された。
論文 参考訳(メタデータ) (2022-02-26T13:02:32Z) - The Effects of Invertibility on the Representational Complexity of
Encoders in Variational Autoencoders [16.27499951949733]
生成写像が「強可逆(strongly invertible)」であれば、推論モデルはそれほど複雑ではないことを示す。
重要なのは、生成モデルが階層的に可逆である必要はないということです。
低次元多様体上にデータを置くと、深層生成モデルの学習が難しくなるという経験的知恵を理論的に支持する。
論文 参考訳(メタデータ) (2021-07-09T19:53:29Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Using Deep Image Priors to Generate Counterfactual Explanations [38.62513524757573]
ディープ画像先行(DIP)は、潜在表現エンコーディングからプレイメージを得るために用いられる。
本稿では,予測器と共同で学習した補助損失推定器に基づく新たな正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-10-22T20:40:44Z) - Invertible generative models for inverse problems: mitigating representation error and dataset bias [6.07645721775351]
訓練された生成モデルは、撮像における逆問題の前兆として顕著な性能を示した。
設計による表現誤差がゼロな非可逆ニューラルネットワークは、逆問題における効果的な自然信号先行処理であることを示す。
論文 参考訳(メタデータ) (2019-05-28T08:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。