論文の概要: BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.17672v2
- Date: Wed, 22 May 2024 04:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:30:39.926453
- Title: BlenderAlchemy: Editing 3D Graphics with Vision-Language Models
- Title(参考訳): BlenderAlchemy:ビジョンランゲージモデルによる3Dグラフィックの編集
- Authors: Ian Huang, Guandao Yang, Leonidas Guibas,
- Abstract要約: ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
- 参考スコア(独自算出の注目度): 4.852796482609347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.
- Abstract(参考訳): グラフィックデザインは、映画制作やゲームデザインなど様々な用途において重要である。
高品質なシーンを作るためには、デザイナーは通常、Blenderのようなソフトウェアに何時間も費やす必要がある。
さらに、わずかに異なる設計目標には、完全に異なるシーケンスが必要になる可能性があるため、自動化が難しくなる。
本稿では,GPT-4Vのような視覚言語モデル(VLM)を利用して,ユーザの意図を満足できる回答に到達するための設計行動空間をインテリジェントに探索するシステムを提案する。
具体的には、視覚に基づく編集生成器と状態評価器を協調して設計し、その目標を達成するためのアクションの正しいシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、VLMの視覚的推論能力と画像生成モデルからの「想像」参照イメージを補完し、抽象言語記述の視覚的基盤を提供する。
本稿では,テキストや参照画像からのプロシージャ資料の編集や複雑なシーンにおける製品レンダリングの照明構成の調整といったタスクに対して,簡単なが退屈なブレンダー編集シーケンスを生成できることを示す実証的証拠を提供する。
関連論文リスト
- Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - Generative AI in Color-Changing Systems: Re-Programmable 3D Object Textures with Material and Design Constraints [13.440729439462014]
フォトクロミック材料を用いたリプログラミング可能な表面の材料および設計制約を伴って、生成型AIシステムを拡張する可能性について論じる。
生成するAIシステムを、フォトクロミック染料で物理的に実現可能な色や素材に制限することにより、ユーザーはさまざまな実行可能なパターンを探索できるツールを作成できる。
論文 参考訳(メタデータ) (2024-04-25T20:39:51Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックスはコンピュータビジョンとグラフィックスの基本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields [22.180286908121946]
粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
論文 参考訳(メタデータ) (2023-03-24T17:28:07Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z) - MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis [27.816895835009994]
本稿では,様々な視覚タスクのための3次元シーン修正と2次元画像合成を容易にするために,大規模インテリアエンビジョンメントVirtuAl合成システムを提案する。
本研究では,ドメイン特化言語を用いたプログラマブルパイプラインを設計し,商業屋内シーンデータベースからシーンを選択する。
合成したデータを用いて,様々なコンピュータビジョンタスクの性能向上を図ることにより,システムの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2021-07-13T14:53:01Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。