論文の概要: RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2604.26067v1
- Date: Tue, 28 Apr 2026 19:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.150127
- Title: RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments
- Title(参考訳): RADIO-ViPE:動的環境におけるオープンボキャブラリセマンティックSLAMのためのオンラインタイト結合多モード融合
- Authors: Zaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin,
- Abstract要約: RADIO-ViPEは、幾何学的オープンボキャブラリグラウンドを可能にするオンラインセマンティックSLAMシステムであり、任意の自然言語クエリと、動的環境における局所的な3D領域とオブジェクトを関連付ける。
キャリブレーションされたRGB-D入力を必要とする既存のアプローチとは異なり、RADIO-ViPEは生のモノクロRGBビデオストリームで直接動作する。
Radio-ViPEは、現実のデプロイメントにおいて重要なギャップを埋め、自律ロボット工学と非制約のビデオストリームのための堅牢なオープン語彙セマンティックグラウンドを可能にする。
- 参考スコア(独自算出の注目度): 3.697188756960539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), an online semantic SLAM system that enables geometry-aware open-vocabulary grounding, associating arbitrary natural language queries with localized 3D regions and objects in dynamic environments. Unlike existing approaches that require calibrated, posed RGB-D input, RADIO-ViPE operates directly on raw monocular RGB video streams, requiring no prior camera intrinsics, depth sensors, or pose initialization. The system tightly couples multi-modal embeddings -- spanning vision and language -- derived from agglomerative foundation models (e.g., RADIO) with geometric scene information. This coupling takes place in initialization, optimization and factor graph connections to improve the consistency of the map from multiple modalities. The optimization is wrapped within adaptive robust kernels, designed to handle both actively moving objects and agent-displaced scene elements (e.g., furniture rearranged during ego-centric session). Experiments demonstrate that RADIO-ViPE achieves state-of-the-art results on the dynamic TUM-RGBD benchmark while maintaining competitive performance against offline open-vocabulary methods that rely on calibrated data and static scene assumptions. RADIO-ViPE bridges a critical gap in real-world deployment, enabling robust open-vocabulary semantic grounding for autonomous robotics and unconstrained in-the-wild video streams. Project page: https://be2rlab.github.io/radio_vipe
- Abstract(参考訳): RADIO-ViPE(Reduce All Domains Into One -- Video Pose Engine)は、動的環境において、任意の自然言語クエリと局所化された3D領域とオブジェクトを関連付けることで、ジオメトリ対応のオープン語彙グラウンドディングを可能にするオンラインセマンティックSLAMシステムである。
キャリブレーションされたRGB-D入力を必要とする既存のアプローチとは異なり、RADIO-ViPEは生の単眼のRGBビデオストリームを直接操作し、カメラ固有のカメラ、奥行きセンサー、または初期化を必要としない。
このシステムは、幾何学的なシーン情報を備えた集合的基礎モデル(例えば、RADIO)から派生した、視覚と言語にまたがるマルチモーダルな埋め込みを密に結合する。
この結合は、初期化、最適化、因子グラフ接続において、複数モードからのマップの整合性を改善するために行われる。
最適化は適応的な堅牢なカーネルにラップされ、アクティブに動くオブジェクトとエージェント置換されたシーン要素(例えば、エゴ中心のセッション中に家具が配置される)の両方を扱うように設計されている。
実験により、RADIO-ViPEは動的TUM-RGBDベンチマークの最先端結果を達成するとともに、キャリブレーションされたデータや静的シーンの仮定に依存するオフラインのオープン語彙手法と競合する性能を保っていることが示された。
RADIO-ViPEは現実世界の展開において重要なギャップを埋め、自律ロボット工学と非制約のビデオストリームのための堅牢なオープン語彙セマンティックグラウンドを可能にする。
プロジェクトページ: https://be2rlab.github.io/radio_vipe
関連論文リスト
- JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments [34.02990381039783]
本稿では, AV-LLMsを3次元空間に拡張し, 共同空間の接地と推論を可能にするフレームワークであるJAEGERを提案する。
我々の研究の中核となる貢献は、学習された空間音響表現である神経強度ベクトル(Neural IV)である。
我々のアプローチは、多様な空間認識と推論タスクにまたがる2D中心のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2026-02-20T04:06:07Z) - KM-ViPE: Online Tightly Coupled Vision-Language-Geometry Fusion for Open-Vocabulary Semantic SLAM [3.14818998227711]
KM-ViPEは動的環境下での非校正モノクロカメラのためのリアルタイムオープンボキャブラリSLAMフレームワークである。
深度センサーやオフラインキャリブレーションを必要とするシステムとは異なり、KM-ViPEは生のRGBストリームで直接動作する。
論文 参考訳(メタデータ) (2025-12-01T17:10:40Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving [39.60518561679198]
我々は,プロンプト誘導点雲センサの組み合わせのパラダイムに基づく,最初の屋外3次元視覚グラウンドモデルであるTPCNetを提案する。
実験により、TPCNetはTalk2RadarとTalk2Carの両方のデータセット上で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-03-11T11:48:27Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Sionna RT: Differentiable Ray Tracing for Radio Propagation Modeling [65.17711407805756]
Sionnaは、リンクレベルのシミュレーションをベースとしたGPUアクセラレーションのオープンソースライブラリである。
リリース v0.14 以降、電波伝搬のシミュレーションのために微分可能なレイトレーサ (RT) を統合している。
論文 参考訳(メタデータ) (2023-03-20T13:40:11Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。