論文の概要: BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.17672v2
- Date: Wed, 22 May 2024 04:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:30:39.926453
- Title: BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
- Title(参考訳): BlenderAlchemy:ビジョンランゲージモデルによる3Dグラフィックの編集
- Authors: Ian Huang, Guandao Yang, Leonidas Guibas,
- Abstract要約: ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
- 参考スコア(独自算出の注目度): 4.852796482609347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.
- Abstract(参考訳): グラフィックデザインは、映画制作やゲームデザインなど様々な用途において重要である。
高品質なシーンを作るためには、デザイナーは通常、Blenderのようなソフトウェアに何時間も費やす必要がある。
さらに、わずかに異なる設計目標には、完全に異なるシーケンスが必要になる可能性があるため、自動化が難しくなる。
本稿では,GPT-4Vのような視覚言語モデル(VLM)を利用して,ユーザの意図を満足できる回答に到達するための設計行動空間をインテリジェントに探索するシステムを提案する。
具体的には、視覚に基づく編集生成器と状態評価器を協調して設計し、その目標を達成するためのアクションの正しいシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、VLMの視覚的推論能力と画像生成モデルからの「想像」参照イメージを補完し、抽象言語記述の視覚的基盤を提供する。
本稿では,テキストや参照画像からのプロシージャ資料の編集や複雑なシーンにおける製品レンダリングの照明構成の調整といったタスクに対して,簡単なが退屈なブレンダー編集シーケンスを生成できることを示す実証的証拠を提供する。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Alfie: Democratising RGBA Image Generation With No $$$ [33.334956022229846]
本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
論文 参考訳(メタデータ) (2024-08-27T07:13:44Z) - Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - Generative AI in Color-Changing Systems: Re-Programmable 3D Object Textures with Material and Design Constraints [13.440729439462014]
フォトクロミック材料を用いたリプログラミング可能な表面の材料および設計制約を伴って、生成型AIシステムを拡張する可能性について論じる。
生成するAIシステムを、フォトクロミック染料で物理的に実現可能な色や素材に制限することにより、ユーザーはさまざまな実行可能なパターンを探索できるツールを作成できる。
論文 参考訳(メタデータ) (2024-04-25T20:39:51Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields [22.180286908121946]
粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
論文 参考訳(メタデータ) (2023-03-24T17:28:07Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。