論文の概要: Language-guided Semantic Style Transfer of 3D Indoor Scenes
- arxiv url: http://arxiv.org/abs/2208.07870v1
- Date: Tue, 16 Aug 2022 17:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:07:00.882937
- Title: Language-guided Semantic Style Transfer of 3D Indoor Scenes
- Title(参考訳): 3次元室内シーンの言語誘導意味スタイル伝達
- Authors: Bu Jin, Beiwen Tian, Hao Zhao, Guyue Zhou
- Abstract要約: 3次元屋内シーンの言語誘導型セマンティックスタイル転送の問題に対処する。
入力は3D屋内シーンメッシュと、ターゲットシーンを記述するいくつかのフレーズである。
色付きの3Dメッシュは、屋内シーン用に調整された視点サンプリング戦略を通じて、2D画像に微分的にレンダリングされる。
- 参考スコア(独自算出の注目度): 2.0624279915507047
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We address the new problem of language-guided semantic style transfer of 3D
indoor scenes. The input is a 3D indoor scene mesh and several phrases that
describe the target scene. Firstly, 3D vertex coordinates are mapped to RGB
residues by a multi-layer perceptron. Secondly, colored 3D meshes are
differentiablly rendered into 2D images, via a viewpoint sampling strategy
tailored for indoor scenes. Thirdly, rendered 2D images are compared to
phrases, via pre-trained vision-language models. Lastly, errors are
back-propagated to the multi-layer perceptron to update vertex colors
corresponding to certain semantic categories. We did large-scale qualitative
analyses and A/B user tests, with the public ScanNet and SceneNN datasets. We
demonstrate: (1) visually pleasing results that are potentially useful for
multimedia applications. (2) rendering 3D indoor scenes from viewpoints
consistent with human priors is important. (3) incorporating semantics
significantly improve style transfer quality. (4) an HSV regularization term
leads to results that are more consistent with inputs and generally rated
better. Codes and user study toolbox are available at
https://github.com/AIR-DISCOVER/LASST
- Abstract(参考訳): 本稿では,3次元屋内シーンの言語誘導型セマンティックスタイル転送の新たな課題に対処する。
入力は3D屋内シーンメッシュと、ターゲットシーンを記述するいくつかのフレーズである。
まず、3次元頂点座標を多層パーセプトロンによりRGB残基にマッピングする。
第二に、色付きの3Dメッシュは、屋内シーン用に調整された視点サンプリング戦略によって、2D画像に微分変換される。
第三に、レンダリングされた2D画像は、事前訓練された視覚言語モデルを介してフレーズと比較される。
最後に、エラーは多層パーセプトロンにバックプロパガンダされ、特定のセマンティックカテゴリに対応する頂点色を更新する。
ScanNetとSceneNNのデータセットを用いて,大規模定性分析とA/Bユーザテストを行った。
1) マルチメディアアプリケーションで潜在的に有用な視覚的な満足度の高い結果を示す。
2)人間との整合性の観点から3次元屋内シーンのレンダリングが重要である。
(3)セマンティクスを組み込むことで、スタイル転送品質が大幅に向上する。
(4) HSV 正規化項は、入力とより整合性があり、一般にはより良く評価される結果をもたらす。
コードとユーザスタディツールボックスはhttps://github.com/air-discover/lasstで入手できる。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [79.8456640972935]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
本稿では,3つのスタンドアロンモジュールを特徴とする高密度3次元グラウンドネットワークを提案する。
まず,文間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いて視点依存発話を解消する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z) - Finding Your (3D) Center: 3D Object Detection Using a Learned Loss [18.821576211135188]
3Dシーンは、都市レベルのスケールでレンジスキャナーによって取得できるが、セマンティックラベルでははるかに少ない。
オブジェクトラベルの5%をわずかに使用しながら、生の3Dスキャンによる3D検出のトレーニングを可能にする新しい最適化手法を提案する。
評価では, 同等の監督において, より低い監督レベルで, より高い品質で競争力を示す。
論文 参考訳(メタデータ) (2020-04-06T14:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。