論文の概要: Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation
- arxiv url: http://arxiv.org/abs/2512.01242v1
- Date: Mon, 01 Dec 2025 03:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.669856
- Title: Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation
- Title(参考訳): 抽象視覚合成のためのジェネレーティブ・ディバイサル・ガンベルMCTS
- Authors: Zirui Zhao, Boye Niu, David Hsu, Wee Sun Lee,
- Abstract要約: 幾何的プリミティブの集合の構成と関係によってアイデンティティが決定される抽象的視覚構成について検討する。
AlphaGoスタイルの検索は実現可能であり、微調整された視覚言語モデルは報酬信号としてセマンティックアライメントをスコアする。
ジェネレーティブ・アドバイサル・ネットワークにインスパイアされ、生成したインスタンスを敵の報酬改善に利用します。
- 参考スコア(独自算出の注目度): 29.755551944026738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study abstract visual composition, in which identity is primarily determined by the spatial configuration and relations among a small set of geometric primitives (e.g., parts, symmetry, topology). They are invariant primarily to texture and photorealistic detail. Composing such structures from fixed components under geometric constraints and vague goal specification (such as text) is non-trivial due to combinatorial placement choices, limited data, and discrete feasibility (overlap-free, allowable orientations), which create a sparse solution manifold ill-suited to purely statistical pixel-space generators. We propose a constraint-guided framework that combines explicit geometric reasoning with neural semantics. An AlphaGo-style search enforces feasibility, while a fine-tuned vision-language model scores semantic alignment as reward signals. Our algorithm uses a policy network as a heuristic in Monte-Carlo Tree Search and fine-tunes the network via search-generated plans. Inspired by the Generative Adversarial Network, we use the generated instances for adversarial reward refinement. Over time, the generation should approach the actual data more closely when the reward model cannot distinguish between generated instances and ground-truth. In the Tangram Assembly task, our approach yields higher validity and semantic fidelity than diffusion and auto-regressive baselines, especially as constraints tighten.
- Abstract(参考訳): 抽象的な視覚構成について検討し,空間的構成と幾何学的プリミティブ(例えば,部分,対称性,トポロジー)間の関係を主眼とする。
これらは主にテクスチャやフォトリアリスティックな詳細に不変である。
幾何学的制約と曖昧な目標仕様(テキストなど)の下で固定成分からそのような構造を構成することは、組合せ配置の選択、限られたデータ、離散実現可能性(オーバーラップフリーで許容できる向き)により、純粋に統計的にピクセル空間生成に不適なスパース解多様体を生成するため、非自明である。
本稿では,明示的な幾何学的推論とニューラルセマンティクスを組み合わせた制約誘導フレームワークを提案する。
AlphaGoスタイルの検索は実現可能であり、微調整された視覚言語モデルは報酬信号としてセマンティックアライメントをスコアする。
我々のアルゴリズムはモンテカルロ木探索においてポリシーネットワークをヒューリスティックとして使用し、検索生成計画を介してネットワークを微調整する。
ジェネレーティブ・アドバイサル・ネットワークにインスパイアされ、生成したインスタンスを敵の報酬改善に利用します。
時が経つにつれて、報酬モデルが生成されたインスタンスと地平線を区別できない場合、生成は実際のデータにより緊密にアプローチすべきである。
タングラムアセンブリタスクでは,特に制約の厳格化に伴い,拡散や自己回帰ベースラインよりも妥当性が高く,意味的忠実度が高い。
関連論文リスト
- SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - Generation of Uncertainty-Aware Emergent Concepts in Factorized 3D Scene Graphs via Graph Neural Networks [14.276364545017222]
本稿では,SLAMバックエンド内の最適要素として,オンライン空間創発概念を学習ベースで生成する手法を提案する。
シミュレーションと実際の屋内シナリオの両方において,提案手法は複雑な概念検出を20.7%,5.3%,軌道推定を19.2%,地図再構成を12.3%,地図再構成を3.8%改善する。
論文 参考訳(メタデータ) (2024-09-18T13:24:44Z) - SC2GAN: Rethinking Entanglement by Self-correcting Correlated GAN Space [16.040942072859075]
ある属性の編集方向に従う遺伝子ネットワークは、他の属性と絡み合った変更をもたらす可能性がある。
本稿では,低密度の潜伏コードサンプルを元の潜伏空間に再プロジェクションすることで,SC$2$GANのアンタングル化を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T14:42:32Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Temporally-Consistent Surface Reconstruction using Metrically-Consistent
Atlases [131.50372468579067]
そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。
我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応性を確立することができる。
当社のアプローチは、いくつかの挑戦的なデータセットにおいて、最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-11-12T17:48:25Z) - IGAN: Inferent and Generative Adversarial Networks [0.0]
IGANは複雑な高次元データ分布における生成モデルと推論モデルの両方を学習する。
画像と潜伏空間の両方で敵の戦略を書き換えることで、従来のGANフレームワークを推論で拡張する。
論文 参考訳(メタデータ) (2021-09-27T21:48:35Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Extended Stochastic Block Models with Application to Criminal Networks [3.2211782521637393]
犯罪者間の関係を符号化する隠蔽ネットワークについて検討する。
ノイズの多いブロックパターンの共存は、日常的に使用されるコミュニティ検出アルゴリズムの信頼性を制限する。
我々は,共通接続パターンを持つノード群を推論する拡張ブロックモデル(ESBM)を新たに開発した。
論文 参考訳(メタデータ) (2020-07-16T19:06:16Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。