論文の概要: Towards Visual Query Localization in the 3D World
- arxiv url: http://arxiv.org/abs/2605.01498v1
- Date: Sat, 02 May 2026 15:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.805615
- Title: Towards Visual Query Localization in the 3D World
- Title(参考訳): 3次元世界におけるビジュアルクエリローカライゼーションに向けて
- Authors: Liang Peng, Bohan Tan, Zhipeng Zhang, Haobo Li, Yifan Jiao, Xingping Dong, Libo Zhang,
- Abstract要約: 3DVQLと呼ばれる新しいベンチマークを導入することで、3Dの世界におけるビジュアルクエリローカライゼーションに対処する最初の試みを行う。
3DVQLは、約170,000フレームの2,002シーケンスと、38のオブジェクトカテゴリの6.4K応答セグメントを含んでいる。
私たちの知る限り、3DVQLは3Dマルチモーダルなビジュアルクエリローカライゼーションのための最初のベンチマークです。
- 参考スコア(独自算出の注目度): 44.67762623020334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual query localization (VQL) aims to predict the spatio-temporal response of the most recent occurrence in a sequence given a query. Currently, most research focuses on visual query localization in 2D videos, while its counterpart in 3D space has received little attention. In this paper, we make the first attempt to address visual query localization in the 3D world by introducing a novel benchmark, dubbed 3DVQL. Specifically, 3DVQL contains 2,002 sequences with around 170,000 frames and 6.4K response track segments from 38 object categories. Each sequence in 3DVQL is provided with multiple modalities, including point clouds, RGB images, and depth images, to support flexible research. To ensure high-quality annotations, each sequence is manually annotated with multiple rounds of verification and refinement. To the best of our knowledge, 3DVQL is the first benchmark for 3D multimodal visual query localization. To facilitate comparison in subsequent research, we implement a series of representative 3D multimodal VQL baselines using point clouds and RGB images. The experimental results show that existing methods exhibit significant performance variations across different fusion modules. To encourage future research, we propose a lift-and-attention fusion algorithm named LaF, which significantly outperforms existing baseline models. Our benchmark and model will be publicly released at https://github.com/wuhengliangliang/3DVQL.
- Abstract(参考訳): ビジュアルクエリローカライゼーション(VQL)は、クエリが与えられたシーケンスにおける最新の発生の時空間的応答を予測することを目的としている。
現在、ほとんどの研究は2Dビデオにおける視覚的クエリローカライズに焦点を当てている。
本稿では,3DVQLと呼ばれる新しいベンチマークを導入することで,視覚的クエリローカライゼーションに対処する試みを行う。
具体的には、3DVQLは、約170,000フレームの2,002シーケンスと、38のオブジェクトカテゴリの6.4Kレスポンストラックセグメントを含んでいる。
3DVQLの各シーケンスは、フレキシブルな研究をサポートするために、ポイントクラウド、RGBイメージ、ディープイメージを含む複数のモードが提供される。
高品質なアノテーションを保証するため、各シーケンスは複数の検証と改善のラウンドで手動でアノテートされる。
私たちの知る限り、3DVQLは3Dマルチモーダルなビジュアルクエリローカライゼーションのための最初のベンチマークです。
その後の研究で比較を容易にするために,ポイントクラウドとRGB画像を用いた3次元マルチモーダルVQLベースラインのシリーズを実装した。
実験の結果,既存手法は異なる融合モジュール間で大きな性能変化を示すことがわかった。
今後の研究を促進するために,既存のベースラインモデルよりも大幅に優れているLaFと呼ばれるリフト・アンド・アテンション融合アルゴリズムを提案する。
ベンチマークとモデルはhttps://github.com/wuhengliangliang/3DVQL.comで公開されます。
関連論文リスト
- ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance [56.15563109738998]
ForeSeaは3段階のプラグアンドプレイパイプラインを備えたAI法医学検索システムである。
ForeSeaは従来のビデオRAGモデルよりも精度を3.5%向上し、一時IoUは11.0向上した。
論文 参考訳(メタデータ) (2026-03-24T07:15:28Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。
PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。
10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-19T04:35:05Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。