論文の概要: What Drives Compositional Generalization in Visual Generative Models?
- arxiv url: http://arxiv.org/abs/2510.03075v1
- Date: Fri, 03 Oct 2025 15:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.439036
- Title: What Drives Compositional Generalization in Visual Generative Models?
- Title(参考訳): 視覚生成モデルにおける構成一般化の推進要因
- Authors: Karim Farid, Rajat Sahay, Yumna Ali Alnaggar, Simon Schrodi, Volker Fischer, Cordelia Schmid, Thomas Brox,
- Abstract要約: 画像生成と映像生成において,様々なデザイン選択が構成一般化にどのように影響するかを体系的に研究する。
i)訓練対象が離散的あるいは連続的な分布に作用するか否か,および(ii)訓練中に構成概念に関する情報を提供する条件がどの程度あるか,という2つの要因を同定する。
これらの知見に基づいて,MaskGITの離散的損失を補助的連続JEPAベースで緩和することにより,MaskGITのような離散モデルにおける構成性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 56.01574461407906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization, the ability to generate novel combinations of known concepts, is a key ingredient for visual generative models. Yet, not all mechanisms that enable or inhibit it are fully understood. In this work, we conduct a systematic study of how various design choices influence compositional generalization in image and video generation in a positive or negative way. Through controlled experiments, we identify two key factors: (i) whether the training objective operates on a discrete or continuous distribution, and (ii) to what extent conditioning provides information about the constituent concepts during training. Building on these insights, we show that relaxing the MaskGIT discrete loss with an auxiliary continuous JEPA-based objective can improve compositional performance in discrete models like MaskGIT.
- Abstract(参考訳): 合成一般化は、既知の概念の新たな組み合わせを生成する能力であり、視覚生成モデルの鍵となる要素である。
しかし、それを有効または阻害するすべてのメカニズムが完全に理解されているわけではない。
本研究では,様々なデザイン選択が画像およびビデオ生成における構成一般化に正あるいは負の形でどのように影響するかを体系的に研究する。
制御された実験を通して、我々は2つの重要な要素を同定する。
一 訓練目的が離散的又は連続的な分布に作用するか否か、及び
二 条件付けが訓練中の構成概念に関する情報をどの程度提供しているか。
これらの知見に基づいて,MaskGITの離散的損失を補助的連続JEPAベースで緩和することにより,MaskGITのような離散モデルにおける構成性能を向上させることができることを示す。
関連論文リスト
- Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - UNIFORM: Unifying Knowledge from Large-scale and Diverse Pre-trained Models [62.76435672183968]
UNIFORMと呼ばれる新しいフレームワークを導入し、多様なオフザシェルフモデルから1つの学生モデルへ知識を伝達する。
本稿では,ロジットレベルでも機能レベルでも知識のコンセンサスを捉えるための,専用の投票機構を提案する。
UNIFORMは、強い知識伝達ベースラインに比べて、教師なしオブジェクト認識性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-08-27T00:56:11Z) - Does Data Scaling Lead to Visual Compositional Generalization? [21.242714408660508]
構成一般化は単なるデータスケールではなく,データの多様性によってもたらされる。
この構造が効率の鍵であることを証明し、ほとんど観測されていない組み合わせから完全な一般化を可能にする。
論文 参考訳(メタデータ) (2025-07-09T17:59:03Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task [18.99393947706941]
合成環境における条件拡散モデルにおける合成一般化について検討する。
サンプルを生成する能力が出現する順番は、基礎となるデータ生成プロセスの構造によって制御される。
本研究は、データ中心の観点から、生成モデルにおける能力と構成性を理解するための基礎を築いた。
論文 参考訳(メタデータ) (2023-10-13T18:00:59Z) - On Feature Diversity in Energy-based Models [98.78384185493624]
エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。
EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。
論文 参考訳(メタデータ) (2023-06-02T12:30:42Z) - Concept-Centric Transformers: Enhancing Model Interpretability through
Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。
本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T06:37:39Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。