論文の概要: Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM
- arxiv url: http://arxiv.org/abs/2407.21333v1
- Date: Wed, 31 Jul 2024 04:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:41:45.457761
- Title: Chat2Layout: Interactive 3D Furniture Layout with a Multimodal LLM
- Title(参考訳): Chat2Layout:マルチモーダルLCMを用いたインタラクティブ3D家具レイアウト
- Authors: Can Wang, Hongliang Zhong, Menglei Chai, Mingming He, Dongdong Chen, Jing Liao,
- Abstract要約: マルチモーダル言語モデル(MLLM)の機能を拡張するインタラクティブな家具レイアウト生成システムを提案する。
本フレームワークでは,MLLMのレイアウト計画に関する推論を支援する,新しい学習自由な視覚機構を提案する。
実験により,本手法は多種多様な複雑な3次元家具の言語間相互作用の生成と配置を容易にすることが示された。
- 参考スコア(独自算出の注目度): 37.640412098917636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic furniture layout is long desired for convenient interior design. Leveraging the remarkable visual reasoning capabilities of multimodal large language models (MLLMs), recent methods address layout generation in a static manner, lacking the feedback-driven refinement essential for interactive user engagement. We introduce Chat2Layout, a novel interactive furniture layout generation system that extends the functionality of MLLMs into the realm of interactive layout design. To achieve this, we establish a unified vision-question paradigm for in-context learning, enabling seamless communication with MLLMs to steer their behavior without altering model weights. Within this framework, we present a novel training-free visual prompting mechanism. This involves a visual-text prompting technique that assist MLLMs in reasoning about plausible layout plans, followed by an Offline-to-Online search (O2O-Search) method, which automatically identifies the minimal set of informative references to provide exemplars for visual-text prompting. By employing an agent system with MLLMs as the core controller, we enable bidirectional interaction. The agent not only comprehends the 3D environment and user requirements through linguistic and visual perception but also plans tasks and reasons about actions to generate and arrange furniture within the virtual space. Furthermore, the agent iteratively updates based on visual feedback from execution results. Experimental results demonstrate that our approach facilitates language-interactive generation and arrangement for diverse and complex 3D furniture.
- Abstract(参考訳): 家具の自動レイアウトは、便利なインテリアデザインのために長い間望まれている。
マルチモーダル大規模言語モデル(MLLM)の目覚ましい視覚的推論機能を活用することで、最近の手法では、インタラクティブなユーザエンゲージメントに必要なフィードバック駆動の改良が欠如している。
本稿では,インタラクティブなレイアウト設計の領域にMLLMの機能を拡張した,インタラクティブな家具レイアウト生成システムChat2Layoutを紹介する。
そこで本研究では,MLLMとのシームレスなコミュニケーションにより,モデル重みの変更を伴わずに動作を制御できる,コンテキスト内学習のための統合型視覚探索パラダイムを構築した。
本フレームワークでは,新しい学習自由な視覚刺激機構を提案する。
これには、MLLMが可視なレイアウト計画の推論を支援する視覚テキストプロンプト技術、続いてオフラインからオンラインへの検索(O2O-Search)メソッドがあり、視覚テキストプロンプトの例を提供するために、最小限の情報参照を自動的に識別する。
MLLMをコアコントローラとするエージェントシステムを用いることで,双方向インタラクションを実現する。
エージェントは、3D環境とユーザ要求を言語的・視覚的に理解するだけでなく、仮想空間内で家具を作成・配置するためのタスクや理由も計画する。
さらに、エージェントは実行結果からの視覚的フィードバックに基づいて反復的に更新する。
実験により,本手法は多種多様な複雑な3次元家具の言語間相互作用の生成と配置を容易にすることが示された。
関連論文リスト
- Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。
ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。
本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-09-05T08:47:34Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Ovis: Structural Embedding Alignment for Multimodal Large Language Model [41.32013722697081]
Ovisは、視覚とテキストの埋め込みを構造的に整列するように設計された新しいMLLMアーキテクチャである。
Ovisは学習可能なビジュアル埋め込みテーブルをビジュアルエンコーダのプロセスに統合する。
様々なマルチモーダルベンチマークにおける実証的な評価は、OvisがオープンソースMLLMよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-31T13:59:18Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。