Fugu-MT 論文翻訳(概要): 3D Vision-Language Gaussian Splatting

論文の概要: 3D Vision-Language Gaussian Splatting

arxiv url: http://arxiv.org/abs/2410.07577v1
Date: Thu, 10 Oct 2024 03:28:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 16:16:17.215997
Title: 3D Vision-Language Gaussian Splatting
Title（参考訳）: 3次元視覚言語ガウススプラッティング
Authors: Qucheng Peng, Benjamin Planche, Zhongpai Gao, Meng Zheng, Anwesa Choudhuri, Terrence Chen, Chen Chen, Ziyan Wu,
Abstract要約: マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
参考スコア（独自算出の注目度）: 29.047044145499036
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in 3D reconstruction methods and vision-language models have propelled the development of multi-modal 3D scene understanding, which has vital applications in robotics, autonomous driving, and virtual/augmented reality. However, current multi-modal scene understanding approaches have naively embedded semantic representations into 3D reconstruction methods without striking a balance between visual and language modalities, which leads to unsatisfying semantic rasterization of translucent or reflective objects, as well as over-fitting on color modality. To alleviate these limitations, we propose a solution that adequately handles the distinct visual and semantic modalities, i.e., a 3D vision-language Gaussian splatting model for scene understanding, to put emphasis on the representation learning of language modality. We propose a novel cross-modal rasterizer, using modality fusion along with a smoothed semantic indicator for enhancing semantic rasterization. We also employ a camera-view blending technique to improve semantic consistency between existing and synthesized views, thereby effectively mitigating over-fitting. Extensive experiments demonstrate that our method achieves state-of-the-art performance in open-vocabulary semantic segmentation, surpassing existing methods by a significant margin.
Abstract（参考訳）: 近年の3D再構成手法と視覚言語モデルの発展により,ロボット工学,自律運転,バーチャル/拡張現実において重要な応用となる,マルチモーダルな3Dシーン理解の開発が進められている。しかし、現在のマルチモーダルシーン理解手法では、視覚的・言語的モダリティのバランスを損なうことなく、3次元再構成法に意味表現をナビゲートし、半透明・反射的物体のセマンティックラスタライゼーションを不満足にし、色調に過度に適合させる。これらの制約を緩和するために,視覚的・意味的モダリティの相違を適切に扱える3次元視覚言語ガウススプラッティングモデルを提案する。本研究では,モダリティ融合とスムーズなセマンティックなラスタライゼーションを併用した新しいクロスモーダルラスタライザを提案する。また、既存のビューと合成ビューのセマンティック一貫性を向上させるために、カメラビューブレンディング技術を用いて、オーバーフィットを効果的に軽減する。オープン語彙セマンティックセマンティックセグメンテーションにおいて,本手法が従来の手法をはるかに上回り,最先端の性能を達成することを実証した。

関連論文リスト

SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文参考訳（メタデータ） (2025-06-11T09:56:39Z)
Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model [19.091907959433073]
AffectVLMは3D/4Dデータから顔の感情を、意味的に豊かで視覚的に包括的に理解するために、多視点を統合した視覚言語モデルである。本稿では,モデル収束を最適な特徴表現へ加速する,新しい勾配に優しい損失関数と組み合わせた共同表現学習フレームワークを提案する。また、リアルタイム対話型推論のためのStreamlitアプリを開発し、分散学習のためのモデルを可能にします。
論文参考訳（メタデータ） (2025-04-28T12:36:14Z)
VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion [35.34118012715217]
カメラベースの3Dセマンティックシーン補完(SSC)は、自律運転のための密集した幾何学的およびセマンティックな知覚を提供する。既存の手法では、オブジェクト間の明示的なセマンティックモデリングが欠如しており、3Dセマンティックコンテキストに対する認識が制限されている。 VLScene: Vision-Language Guidance Distillation for Camera-based 3D Semantic Scene Completionを提案する。
論文参考訳（メタデータ） (2025-03-08T13:40:52Z)
OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation [84.32038395034868]
OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。 OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
論文参考訳（メタデータ） (2024-12-15T13:26:51Z)
Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文参考訳（メタデータ） (2024-12-12T06:09:49Z)
Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文参考訳（メタデータ） (2024-07-19T03:43:48Z)
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-07-18T16:20:56Z)
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。 DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2024-07-13T05:39:17Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。 GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-01T05:19:50Z)
OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-02-07T08:19:57Z)
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文参考訳（メタデータ） (2024-01-03T20:39:02Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文参考訳（メタデータ） (2023-08-06T01:11:40Z)
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-09T06:31:15Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。