論文の概要: VLMaterial: Procedural Material Generation with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.18623v2
- Date: Tue, 18 Feb 2025 16:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:01:27.182306
- Title: VLMaterial: Procedural Material Generation with Large Vision-Language Models
- Title(参考訳): VLMaterial:大型ビジョンランゲージモデルによる手続き材料生成
- Authors: Beichen Li, Rundi Wu, Armando Solar-Lezama, Changxi Zheng, Liang Shi, Bernd Bickel, Wojciech Matusik,
- Abstract要約: 手続き資料を標準Pythonプログラムに変換する能力を活用している。
我々は、入力画像からそのようなプログラムを生成するために、事前学習された大規模な視覚言語モデルを微調整する。
本手法は, 合成実例と実例の両方において, 従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 43.60515109432699
- License:
- Abstract: Procedural materials, represented as functional node graphs, are ubiquitous in computer graphics for photorealistic material appearance design. They allow users to perform intuitive and precise editing to achieve desired visual appearances. However, creating a procedural material given an input image requires professional knowledge and significant effort. In this work, we leverage the ability to convert procedural materials into standard Python programs and fine-tune a large pre-trained vision-language model (VLM) to generate such programs from input images. To enable effective fine-tuning, we also contribute an open-source procedural material dataset and propose to perform program-level augmentation by prompting another pre-trained large language model (LLM). Through extensive evaluation, we show that our method outperforms previous methods on both synthetic and real-world examples.
- Abstract(参考訳): 関数ノードグラフとして表される手続き材料は、フォトリアリスティックな素材の外観設計のためのコンピュータグラフィックスにおいてユビキタスである。
ユーザーは直感的で正確な編集を行い、望ましい視覚的な外観を実現できる。
しかし、入力画像が与えられた手続き資料を作成するには、専門的な知識と多大な努力が必要である。
本研究では,プロシージャ素材を標準的なPythonプログラムに変換し,学習済みの視覚言語モデル(VLM)を微調整することで,入力画像からそのようなプログラムを生成する。
効果的な微調整を実現するため,オープンソースのプロシージャ資料データセットのコントリビューションや,事前訓練された別の大規模言語モデル(LLM)の推進によるプログラムレベルの拡張を提案する。
提案手法は,より広範囲な評価により,合成例と実例の両方において,従来の手法よりも優れていたことを示す。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Neural Photometry-guided Visual Attribute Transfer [4.630419389180576]
本稿では,同じ又は類似の素材のより大きなサンプルに対して,視覚的特性を伝播する深層学習に基づく手法を提案する。
トレーニングには、複数のイルミネーションと専用データ拡張ポリシーの下で撮影された材料の画像を活用する。
我々のモデルは、教師付き画像から画像への変換フレームワークに依存しており、転送されたドメインに依存しない。
論文 参考訳(メタデータ) (2021-12-05T09:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。