Fugu-MT 論文翻訳(概要): Language-guided Semantic Style Transfer of 3D Indoor Scenes

論文の概要: Language-guided Semantic Style Transfer of 3D Indoor Scenes

arxiv url: http://arxiv.org/abs/2208.07870v1
Date: Tue, 16 Aug 2022 17:58:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-17 12:07:00.882937
Title: Language-guided Semantic Style Transfer of 3D Indoor Scenes
Title（参考訳）: 3次元室内シーンの言語誘導意味スタイル伝達
Authors: Bu Jin, Beiwen Tian, Hao Zhao, Guyue Zhou
Abstract要約: 3次元屋内シーンの言語誘導型セマンティックスタイル転送の問題に対処する。入力は3D屋内シーンメッシュと、ターゲットシーンを記述するいくつかのフレーズである。色付きの3Dメッシュは、屋内シーン用に調整された視点サンプリング戦略を通じて、2D画像に微分的にレンダリングされる。
参考スコア（独自算出の注目度）: 2.0624279915507047
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We address the new problem of language-guided semantic style transfer of 3D indoor scenes. The input is a 3D indoor scene mesh and several phrases that describe the target scene. Firstly, 3D vertex coordinates are mapped to RGB residues by a multi-layer perceptron. Secondly, colored 3D meshes are differentiablly rendered into 2D images, via a viewpoint sampling strategy tailored for indoor scenes. Thirdly, rendered 2D images are compared to phrases, via pre-trained vision-language models. Lastly, errors are back-propagated to the multi-layer perceptron to update vertex colors corresponding to certain semantic categories. We did large-scale qualitative analyses and A/B user tests, with the public ScanNet and SceneNN datasets. We demonstrate: (1) visually pleasing results that are potentially useful for multimedia applications. (2) rendering 3D indoor scenes from viewpoints consistent with human priors is important. (3) incorporating semantics significantly improve style transfer quality. (4) an HSV regularization term leads to results that are more consistent with inputs and generally rated better. Codes and user study toolbox are available at https://github.com/AIR-DISCOVER/LASST
Abstract（参考訳）: 本稿では,3次元屋内シーンの言語誘導型セマンティックスタイル転送の新たな課題に対処する。入力は3D屋内シーンメッシュと、ターゲットシーンを記述するいくつかのフレーズである。まず、3次元頂点座標を多層パーセプトロンによりRGB残基にマッピングする。第二に、色付きの3Dメッシュは、屋内シーン用に調整された視点サンプリング戦略によって、2D画像に微分変換される。第三に、レンダリングされた2D画像は、事前訓練された視覚言語モデルを介してフレーズと比較される。最後に、エラーは多層パーセプトロンにバックプロパガンダされ、特定のセマンティックカテゴリに対応する頂点色を更新する。 ScanNetとSceneNNのデータセットを用いて,大規模定性分析とA/Bユーザテストを行った。 1) マルチメディアアプリケーションで潜在的に有用な視覚的な満足度の高い結果を示す。 2)人間との整合性の観点から3次元屋内シーンのレンダリングが重要である。 (3)セマンティクスを組み込むことで、スタイル転送品質が大幅に向上する。 (4) HSV 正規化項は、入力とより整合性があり、一般にはより良く評価される結果をもたらす。コードとユーザスタディツールボックスはhttps://github.com/air-discover/lasstで入手できる。

関連論文リスト

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文参考訳（メタデータ） (2025-05-30T16:06:32Z)
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
本稿では,NeRFと3DGSでモデル化されたシーンの3次元理解を向上する上での課題を再考する。言語埋め込みフィールドをトレーニングするために、直接3Dポイントを監督します。マルチスケールの言語埋め込みに頼ることなく、最先端の精度を実現する。
論文参考訳（メタデータ） (2024-08-14T09:50:02Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文参考訳（メタデータ） (2024-01-17T17:04:35Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文参考訳（メタデータ） (2023-02-02T18:59:16Z)
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。学習した視覚表現の質を高める能力について実証的に示す。提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文参考訳（メタデータ） (2022-11-25T17:12:08Z)
Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。 3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文参考訳（メタデータ） (2022-11-25T15:03:32Z)
Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文参考訳（メタデータ） (2022-04-05T12:59:43Z)
SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文参考訳（メタデータ） (2021-05-24T17:58:36Z)
Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文参考訳（メタデータ） (2020-04-20T05:27:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。