論文の概要: Knowledge driven Description Synthesis for Floor Plan Interpretation
- arxiv url: http://arxiv.org/abs/2103.08298v1
- Date: Mon, 15 Mar 2021 11:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 20:23:40.984731
- Title: Knowledge driven Description Synthesis for Floor Plan Interpretation
- Title(参考訳): フロアプラン解釈のための知識駆動記述合成
- Authors: Shreya Goyal, Chiranjoy Chattopadhyay, Gaurav Bhatnagar
- Abstract要約: 本稿では、画像キュー(DSIC)からの記述合成と変換器ベース記述生成(TBDG)の2つのモデルを提案する。
両方のモデルの違いは、フロアプランの画像から入力する方法にあります。
大規模データセット上で実験を行い,提案モデルの優越性を示すための最先端技術と比較した。
- 参考スコア(独自算出の注目度): 3.265773263570237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning is a widely known problem in the area of AI. Caption
generation from floor plan images has applications in indoor path planning,
real estate, and providing architectural solutions. Several methods have been
explored in literature for generating captions or semi-structured descriptions
from floor plan images. Since only the caption is insufficient to capture
fine-grained details, researchers also proposed descriptive paragraphs from
images. However, these descriptions have a rigid structure and lack
flexibility, making it difficult to use them in real-time scenarios. This paper
offers two models, Description Synthesis from Image Cue (DSIC) and Transformer
Based Description Generation (TBDG), for the floor plan image to text
generation to fill the gaps in existing methods. These two models take
advantage of modern deep neural networks for visual feature extraction and text
generation. The difference between both models is in the way they take input
from the floor plan image. The DSIC model takes only visual features
automatically extracted by a deep neural network, while the TBDG model learns
textual captions extracted from input floor plan images with paragraphs. The
specific keywords generated in TBDG and understanding them with paragraphs make
it more robust in a general floor plan image. Experiments were carried out on a
large-scale publicly available dataset and compared with state-of-the-art
techniques to show the proposed model's superiority.
- Abstract(参考訳): 画像キャプションはAIの分野で広く知られている問題である。
フロアプランイメージからのキャプション生成は、屋内経路計画、不動産、建築ソリューションに応用されています。
フロアプラン画像からキャプションや半構造化記述を生成するためのいくつかの手法が文献で研究されている。
キャプションだけが細かな詳細を捉えるには不十分であるため、研究者は画像から記述段落も提案した。
しかしながら、これらの記述は厳密な構造を持ち、柔軟性に欠けており、リアルタイムシナリオで使用するのが困難である。
本稿では,画像キュー(DSIC)とトランスフォーマーベース記述生成(TBDG)の2つのモデルについて,フロアプラン画像からテキスト生成への変換を行い,既存の手法のギャップを埋める。
これら2つのモデルは、視覚特徴抽出とテキスト生成に現代のディープニューラルネットワークを利用する。
両方のモデルの違いは、フロアプランの画像から入力する方法にあります。
DSICモデルは深層ニューラルネットワークによって自動的に抽出される視覚的特徴のみを取り、TBDGモデルは入力フロアプラン画像から抽出されたテキストキャプションを段落で学習する。
TBDGで生成された特定のキーワードとパラグラフで理解することで、一般的なフロアプランイメージでより堅牢になります。
大規模データセット上で実験を行い,提案モデルの優越性を示すための最先端技術と比較した。
関連論文リスト
- Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。