論文の概要: Tell2Design: A Dataset for Language-Guided Floor Plan Generation
- arxiv url: http://arxiv.org/abs/2311.15941v1
- Date: Mon, 27 Nov 2023 15:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:26:07.363270
- Title: Tell2Design: A Dataset for Language-Guided Floor Plan Generation
- Title(参考訳): tell2design: 言語誘導フロアプラン生成のためのデータセット
- Authors: Sicong Leng, Yang Zhou, Mohammed Haroon Dupty, Wee Sun Lee, Sam Conrad
Joyce, Wei Lu
- Abstract要約: 自然言語記述からデザインを直接生成する作業について検討する。
デザインは、芸術的なイメージの生成に存在しない異なる制約を満たす必要がある。
- 参考スコア(独自算出の注目度): 21.686370988228614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the task of generating designs directly from natural language
descriptions, and consider floor plan generation as the initial research area.
Language conditional generative models have recently been very successful in
generating high-quality artistic images. However, designs must satisfy
different constraints that are not present in generating artistic images,
particularly spatial and relational constraints. We make multiple contributions
to initiate research on this task. First, we introduce a novel dataset,
\textit{Tell2Design} (T2D), which contains more than $80k$ floor plan designs
associated with natural language instructions. Second, we propose a
Sequence-to-Sequence model that can serve as a strong baseline for future
research. Third, we benchmark this task with several text-conditional image
generation models. We conclude by conducting human evaluations on the generated
samples and providing an analysis of human performance. We hope our
contributions will propel the research on language-guided design generation
forward.
- Abstract(参考訳): 本研究は,自然言語記述から設計を直接生成するタスクを考察し,フロアプラン生成を初期研究分野として検討する。
言語条件生成モデルは最近、高品質な芸術的画像の生成に非常に成功している。
しかし、デザインは芸術的イメージ、特に空間的および関係的制約の生成に存在しない異なる制約を満たす必要がある。
我々はこの課題の研究に複数の貢献をしている。
まず、自然言語命令に関連する80k以上のフロアプラン設計を含む新しいデータセットである \textit{Tell2Design} (T2D) を紹介する。
第二に,将来の研究のベースラインとして機能するシーケンシャル・ツー・シーケンスモデルを提案する。
第3に、このタスクをテキスト条件の画像生成モデルでベンチマークする。
生成したサンプルに対して人的評価を行い,人的性能の分析を行った。
われわれの貢献が、言語によるデザイン生成の研究を前進させることを期待している。
関連論文リスト
- Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - DYPLOC: Dynamic Planning of Content Using Mixed Language Models for Text
Generation [10.477090501569284]
本稿では,少なくとも2つの課題に直面する長文意見テキスト生成の課題について検討する。
既存のニューラルジェネレーションモデルはコヒーレンスに欠けており、効率的なコンテンツプランニングが必要である。
DYPLOCは、混合言語モデルの新しい設計に基づいて出力を生成しながら、コンテンツの動的計画を行う生成フレームワークである。
論文 参考訳(メタデータ) (2021-06-01T20:56:10Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Intelligent Home 3D: Automatic 3D-House Design from Linguistic
Descriptions Only [55.3363844662966]
本稿では,言語条件付き視覚コンテンツ生成問題として,フロアプラン生成と内部テクスチャ合成タスクに分割して定式化する。
モデルをトレーニングし,評価するために,最初のText-to-3D House Modelデータセットを構築した。
論文 参考訳(メタデータ) (2020-03-01T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。