Fugu-MT 論文翻訳(概要): OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

論文の概要: OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2601.09575v1
Date: Wed, 14 Jan 2026 15:45:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.455022
Title: OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding
Title（参考訳）: OpenVoxel: Open-Vocabulary 3D Scene Understandingのためのトレーニング不要なグループ化とキャプションボクセル
Authors: Sheng-Yu Huang, Jaesung Choe, Yu-Chiang Frank Wang, Cheng Sun,
Abstract要約: オープンな3Dシーン理解タスクのためのグループ化と字幕化のための訓練不要なアルゴリズムであるOpenVoxelを提案する。提案手法は,最近の研究,特に複合参照表現セグメンテーション(RES)タスクに比較して,優れた性能を示す。
参考スコア（独自算出の注目度）: 51.20680201565003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose OpenVoxel, a training-free algorithm for grouping and captioning sparse voxels for the open-vocabulary 3D scene understanding tasks. Given the sparse voxel rasterization (SVR) model obtained from multi-view images of a 3D scene, our OpenVoxel is able to produce meaningful groups that describe different objects in the scene. Also, by leveraging powerful Vision Language Models (VLMs) and Multi-modal Large Language Models (MLLMs), our OpenVoxel successfully build an informative scene map by captioning each group, enabling further 3D scene understanding tasks such as open-vocabulary segmentation (OVS) or referring expression segmentation (RES). Unlike previous methods, our method is training-free and does not introduce embeddings from a CLIP/BERT text encoder. Instead, we directly proceed with text-to-text search using MLLMs. Through extensive experiments, our method demonstrates superior performance compared to recent studies, particularly in complex referring expression segmentation (RES) tasks. The code will be open.
Abstract（参考訳）: オープンな3Dシーン理解タスクに対して,スパースボクセルをグループ化し,キャプションする訓練自由アルゴリズムであるOpenVoxelを提案する。 3Dシーンのマルチビュー画像から得られるスパースボクセルラスタ化(SVR)モデルを考えると、OpenVoxelはシーン内の異なるオブジェクトを記述する有意義なグループを生成することができる。また,強力な視覚言語モデル (VLM) とマルチモーダル大規模言語モデル (MLLM) を活用することで,各グループをキャプションすることで,オープン語彙セグメンテーション (OVS) や表現セグメンテーション (RES) などの3次元シーン理解タスクを実現することができる。従来の方法とは異なり,本手法はトレーニング不要であり,CLIP/BERTテキストエンコーダからの埋め込みを導入しない。代わりに、MLLMを使ってテキストからテキストまで直接検索する。提案手法は,最近の研究,特に複雑な参照表現セグメンテーション(RES)タスクに比較して,優れた性能を示す。コードはオープンされます。

関連論文リスト

PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。 LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-09T12:37:15Z)
Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-27T03:44:07Z)
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。 DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2024-07-13T05:39:17Z)
Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding [41.96929575241655]
OV-SAM3Dはオープンな3Dシーンを理解するための訓練不要な手法である。このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。 ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。
論文参考訳（メタデータ） (2024-05-24T14:07:57Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文参考訳（メタデータ） (2024-01-21T04:13:58Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文参考訳（メタデータ） (2023-06-23T17:36:44Z)
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文参考訳（メタデータ） (2022-11-29T15:52:22Z)
GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。 GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文参考訳（メタデータ） (2022-05-22T02:00:09Z)
Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文参考訳（メタデータ） (2021-12-02T13:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。