論文の概要: Layout Generation Agents with Large Language Models
- arxiv url: http://arxiv.org/abs/2405.08037v1
- Date: Mon, 13 May 2024 06:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 18:03:09.872526
- Title: Layout Generation Agents with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたレイアウト生成エージェント
- Authors: Yuichi Sasazawa, Yasuhiro Sogawa,
- Abstract要約: GPT-4Vマルチモーダル大言語モデルを用いたエージェント駆動レイアウト生成システムを提案する。
実験の結果,提案手法はユーザの指示を反映した仮想空間を高い成功率で生成できることを確認した。
- 参考スコア(独自算出の注目度): 3.370788394696053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been an increasing demand for customizable 3D virtual spaces. Due to the significant human effort required to create these virtual spaces, there is a need for efficiency in virtual space creation. While existing studies have proposed methods for automatically generating layouts such as floor plans and furniture arrangements, these methods only generate text indicating the layout structure based on user instructions, without utilizing the information obtained during the generation process. In this study, we propose an agent-driven layout generation system using the GPT-4V multimodal large language model and validate its effectiveness. Specifically, the language model manipulates agents to sequentially place objects in the virtual space, thus generating layouts that reflect user instructions. Experimental results confirm that our proposed method can generate virtual spaces reflecting user instructions with a high success rate. Additionally, we successfully identified elements contributing to the improvement in behavior generation performance through ablation study.
- Abstract(参考訳): 近年、カスタマイズ可能な3D仮想空間への需要が高まっている。
これらの仮想空間を作成するのに必要な人的労力が大きいため、仮想空間の作成には効率性が必要である。
既存の研究では,床計画や家具配置などのレイアウトを自動的に生成する手法が提案されているが,これらの手法は生成過程で得られた情報を活用することなく,ユーザ指示に基づいてレイアウト構造を示すテキストを生成するのみである。
本研究では,GPT-4Vマルチモーダル大言語モデルを用いたエージェント駆動レイアウト生成システムを提案し,その有効性を検証した。
具体的には、言語モデルはエージェントを操作して仮想空間にオブジェクトを順次配置することで、ユーザの指示を反映したレイアウトを生成する。
実験の結果,提案手法はユーザの指示を反映した仮想空間を高い成功率で生成できることを確認した。
さらに,アブレーション研究により,行動生成性能の向上に寄与する要素の同定に成功した。
関連論文リスト
- HouseLLM: LLM-Assisted Two-Phase Text-to-Floorplan Generation [4.242755827806053]
本稿では,Large Language Model (LLM) を誘導して初期レイアウトを生成する2段階のテキスト・ツー・フロアプラン生成手法を提案する。
我々は、ユーザテキスト仕様に基づいてLCMを誘導するためにChain-of-Thoughtアプローチを導入し、よりユーザフレンドリで直感的な住宅レイアウト設計を可能にした。
実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインにおける有効性を検証した。
論文 参考訳(メタデータ) (2024-11-19T06:57:45Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:00:06Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。