論文の概要: MultiMat: Multimodal Program Synthesis for Procedural Materials using Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.22151v1
- Date: Fri, 26 Sep 2025 10:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.360691
- Title: MultiMat: Multimodal Program Synthesis for Procedural Materials using Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルを用いた手続き材料のマルチモーダルプログラム合成
- Authors: Jonas Belouadi, Tamy Boubekeur, Adrien Kaiser,
- Abstract要約: ビジュアルグラフ表現とテキストグラフ表現の両方を処理するプログラム合成フレームワークであるMultiMatを提案する。
我々は、生産品質の高い手続き資料の新しいデータセットに基づいてモデルをトレーニングし、制約付き木探索推論アルゴリズムと組み合わせる。
実験結果から, このマルチモーダルプログラム合成法は, 非条件および条件付きグラフ合成において, より効率的であることが示唆された。
- 参考スコア(独自算出の注目度): 9.025489303067008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Material node graphs are programs that generate the 2D channels of procedural materials, including geometry such as roughness and displacement maps, and reflectance such as albedo and conductivity maps. They are essential in computer graphics for representing the appearance of virtual 3D objects parametrically and at arbitrary resolution. In particular, their directed acyclic graph structures and intermediate states provide an intuitive understanding and workflow for interactive appearance modeling. Creating such graphs is a challenging task and typically requires professional training. While recent neural program synthesis approaches attempt to simplify this process, they solely represent graphs as textual programs, failing to capture the inherently visual-spatial nature of node graphs that makes them accessible to humans. To address this gap, we present MultiMat, a multimodal program synthesis framework that leverages large multimodal models to process both visual and textual graph representations for improved generation of procedural material graphs. We train our models on a new dataset of production-quality procedural materials and combine them with a constrained tree search inference algorithm that ensures syntactic validity while efficiently navigating the program space. Our experimental results show that our multimodal program synthesis method is more efficient in both unconditional and conditional graph synthesis with higher visual quality and fidelity than text-only baselines, establishing new state-of-the-art performance.
- Abstract(参考訳): 材料ノードグラフは、粗さや変位マップのような幾何学、アルベドや伝導率マップのような反射率を含む手続き材料の2次元チャネルを生成するプログラムである。
仮想3Dオブジェクトの出現をパラメトリックかつ任意の解像度で表現するためには、コンピュータグラフィックスにおいて欠かせない。
特に、それらの有向非巡回グラフ構造と中間状態は、インタラクティブな外観モデリングのための直感的な理解とワークフローを提供する。
このようなグラフの作成は難しい作業であり、通常は専門的なトレーニングが必要です。
最近のニューラルプログラム合成アプローチは、このプロセスを単純化しようとするが、それらは単にグラフをテキストプログラムとして表現するだけであり、本質的に視覚的なノードグラフの性質を捉えていない。
このギャップに対処するため,大規模マルチモーダルモデルを利用したマルチモーダルプログラム合成フレームワークであるMultiMatを提案する。
我々は,生産品質の高い新規プロシージャ素材のデータセットに基づいてモデルをトレーニングし,プログラム空間を効率的にナビゲートしながら,構文的妥当性を保証する制約付き木探索推論アルゴリズムと組み合わせた。
実験結果から,本手法は,テキストのみのベースラインよりも視覚的品質と忠実度の高い非条件および条件付きグラフ合成において,より効率的であり,新たな最先端性能の確立が期待できる。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior [23.536285325566013]
自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。
既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。
Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
論文 参考訳(メタデータ) (2024-07-10T12:13:39Z) - Message Detouring: A Simple Yet Effective Cycle Representation for
Expressive Graph Learning [4.085624738017079]
グラフ全体のサイクル表現を階層的に特徴付けるために,テキストデツーリングの概念を導入する。
メッセージのデツーリングは、さまざまなベンチマークデータセットにおいて、現在の競合するアプローチを大幅に上回る可能性がある。
論文 参考訳(メタデータ) (2024-02-12T22:06:37Z) - When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding
and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。
このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。
研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文 参考訳(メタデータ) (2023-12-16T08:14:11Z) - Sparse Graphical Linear Dynamical Systems [1.6635799895254402]
時系列データセットは機械学習の中心であり、科学と工学の様々な分野に応用されている。
本研究は,共同グラフィカル・モデリング・フレームワークを導入することでギャップを埋める新しい手法を提案する。
本稿では,DGLASSOを提案する。DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO。
論文 参考訳(メタデータ) (2023-07-06T14:10:02Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Template based Graph Neural Network with Optimal Transport Distances [11.56532171513328]
現在のグラフニューラルネットワーク(GNN)アーキテクチャは、2つの重要なコンポーネントに依存している。
本稿では,学習可能なグラフテンプレートとの距離をグラフ表現のコアに配置する新しい視点を提案する。
この距離埋め込みは、Fused Gromov-Wasserstein (FGW) 距離という最適な輸送距離によって構築される。
論文 参考訳(メタデータ) (2022-05-31T12:24:01Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - Comparison of Syntactic and Semantic Representations of Programs in
Neural Embeddings [1.0878040851638]
プログラム埋め込みのタスクにおいて、異なるグラフ表現を用いてグラフ畳み込みネットワークを比較する。
制御フローグラフの空間性やグラフ畳み込みネットワークの暗黙の集約は、これらのモデルがナイーブモデルよりも悪い結果をもたらすことを示している。
論文 参考訳(メタデータ) (2020-01-24T21:30:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。