論文の概要: Language-guided Semantic Style Transfer of 3D Indoor Scenes
- arxiv url: http://arxiv.org/abs/2208.07870v1
- Date: Tue, 16 Aug 2022 17:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:07:00.882937
- Title: Language-guided Semantic Style Transfer of 3D Indoor Scenes
- Title(参考訳): 3次元室内シーンの言語誘導意味スタイル伝達
- Authors: Bu Jin, Beiwen Tian, Hao Zhao, Guyue Zhou
- Abstract要約: 3次元屋内シーンの言語誘導型セマンティックスタイル転送の問題に対処する。
入力は3D屋内シーンメッシュと、ターゲットシーンを記述するいくつかのフレーズである。
色付きの3Dメッシュは、屋内シーン用に調整された視点サンプリング戦略を通じて、2D画像に微分的にレンダリングされる。
- 参考スコア(独自算出の注目度): 2.0624279915507047
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We address the new problem of language-guided semantic style transfer of 3D
indoor scenes. The input is a 3D indoor scene mesh and several phrases that
describe the target scene. Firstly, 3D vertex coordinates are mapped to RGB
residues by a multi-layer perceptron. Secondly, colored 3D meshes are
differentiablly rendered into 2D images, via a viewpoint sampling strategy
tailored for indoor scenes. Thirdly, rendered 2D images are compared to
phrases, via pre-trained vision-language models. Lastly, errors are
back-propagated to the multi-layer perceptron to update vertex colors
corresponding to certain semantic categories. We did large-scale qualitative
analyses and A/B user tests, with the public ScanNet and SceneNN datasets. We
demonstrate: (1) visually pleasing results that are potentially useful for
multimedia applications. (2) rendering 3D indoor scenes from viewpoints
consistent with human priors is important. (3) incorporating semantics
significantly improve style transfer quality. (4) an HSV regularization term
leads to results that are more consistent with inputs and generally rated
better. Codes and user study toolbox are available at
https://github.com/AIR-DISCOVER/LASST
- Abstract(参考訳): 本稿では,3次元屋内シーンの言語誘導型セマンティックスタイル転送の新たな課題に対処する。
入力は3D屋内シーンメッシュと、ターゲットシーンを記述するいくつかのフレーズである。
まず、3次元頂点座標を多層パーセプトロンによりRGB残基にマッピングする。
第二に、色付きの3Dメッシュは、屋内シーン用に調整された視点サンプリング戦略によって、2D画像に微分変換される。
第三に、レンダリングされた2D画像は、事前訓練された視覚言語モデルを介してフレーズと比較される。
最後に、エラーは多層パーセプトロンにバックプロパガンダされ、特定のセマンティックカテゴリに対応する頂点色を更新する。
ScanNetとSceneNNのデータセットを用いて,大規模定性分析とA/Bユーザテストを行った。
1) マルチメディアアプリケーションで潜在的に有用な視覚的な満足度の高い結果を示す。
2)人間との整合性の観点から3次元屋内シーンのレンダリングが重要である。
(3)セマンティクスを組み込むことで、スタイル転送品質が大幅に向上する。
(4) HSV 正規化項は、入力とより整合性があり、一般にはより良く評価される結果をもたらす。
コードとユーザスタディツールボックスはhttps://github.com/air-discover/lasstで入手できる。
関連論文リスト
- Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
本稿では,NeRFと3DGSでモデル化されたシーンの3次元理解を向上する上での課題を再考する。
言語埋め込みフィールドをトレーニングするために、直接3Dポイントを監督します。
マルチスケールの言語埋め込みに頼ることなく、最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-08-14T09:50:02Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。