論文の概要: Egocentric Action-aware Inertial Localization in Point Clouds with Vision-Language Guidance
- arxiv url: http://arxiv.org/abs/2505.14346v2
- Date: Sat, 26 Jul 2025 23:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.438464
- Title: Egocentric Action-aware Inertial Localization in Point Clouds with Vision-Language Guidance
- Title(参考訳): Egocentric Action-Aware Inertial Localization in Point Clouds with Vision-Language Guidance
- Authors: Mingfang Zhang, Ryo Yonetani, Yifei Huang, Liangyang Ouyang, Ruicong Liu, Yoichi Sato,
- Abstract要約: 本稿では,Egocentric Action-Aware Inertial Localization (EAIL) という新しい慣性ローカライゼーションフレームワークを提案する。
EAILは階層的マルチモーダルアライメントと視覚言語指導によって相関関係を学習する。
実験は、最先端の慣性局所化と慣性行動認識ベースラインに対する提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 25.891732881900484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel inertial localization framework named Egocentric Action-aware Inertial Localization (EAIL), which leverages egocentric action cues from head-mounted IMU signals to localize the target individual within a 3D point cloud. Human inertial localization is challenging due to IMU sensor noise that causes trajectory drift over time. The diversity of human actions further complicates IMU signal processing by introducing various motion patterns. Nevertheless, we observe that some actions captured by the head-mounted IMU correlate with spatial environmental structures (e.g., bending down to look inside an oven, washing dishes next to a sink), thereby serving as spatial anchors to compensate for the localization drift. The proposed EAIL framework learns such correlations via hierarchical multi-modal alignment with vision-language guidance. By assuming that the 3D point cloud of the environment is available, it contrastively learns modality encoders that align short-term egocentric action cues in IMU signals with local environmental features in the point cloud. The learning process is enhanced using concurrently collected vision and language signals to improve multimodal alignment. The learned encoders are then used in reasoning the IMU data and the point cloud over time and space to perform inertial localization. Interestingly, these encoders can further be utilized to recognize the corresponding sequence of actions as a by-product. Extensive experiments demonstrate the effectiveness of the proposed framework over state-of-the-art inertial localization and inertial action recognition baselines.
- Abstract(参考訳): 本稿では,頭部に装着したIMU信号からエゴセントリックなアクションキューを利用して,対象個人を3Dポイントクラウド内にローカライズする,Egocentric Action-aware Inertial Localization (EAIL) という新しい慣性ローカライゼーションフレームワークを提案する。
人間の慣性局在は、時間とともに軌道のドリフトを引き起こすIMUセンサノイズのために困難である。
人間の行動の多様性は、様々な動きパターンを導入することで、IMU信号処理をさらに複雑にする。
しかし, 頭部に装着したIMUは, 空間環境構造(例えば, オーブンの中を見るために屈曲し, シンクの隣で皿を洗う)と相関し, 局所的ドリフトを補うために空間的アンカーとして機能することが観察された。
提案するEAILフレームワークは,階層的マルチモーダルアライメントと視覚言語指導を用いて,そのような相関関係を学習する。
環境の3次元点雲が利用可能であると仮定することで、IMU信号における短期的な自我中心のアクションキューと点雲内の局所的な環境特徴とを整合させるモダリティエンコーダを対照的に学習する。
学習プロセスは、同時に収集された視覚と言語信号を用いて強化され、マルチモーダルアライメントを改善する。
学習したエンコーダは、慣性ローカライゼーションを実行するために、IMUデータと時間と空間の点雲を推論するために使用される。
興味深いことに、これらのエンコーダは、対応するアクションのシーケンスを副産物として認識するためにさらに利用することができる。
大規模実験は、最先端の慣性局所化と慣性行動認識ベースラインに対する提案手法の有効性を示す。
関連論文リスト
- Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments [1.9566515100805284]
VLN-CEは、自然言語命令に基づいて連続空間をナビゲートするエージェントを必要とする。
本稿では,マルチグラニュラリティ認識と命令認識推論による性能向上を目的としたナビゲーションブースターST-Boosterを紹介する。
大規模な実験と性能解析を行い、ST-Boosterが既存の最先端手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-04-14T03:29:08Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。
$mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。
$mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T15:26:54Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation [51.66997548477913]
本稿では,DDFP(Dedentity-Descending Feature Perturbation)という特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度はセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。
提案したDFFPは、機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesのデータセット上でのアートパフォーマンスの状態を示している。
論文 参考訳(メタデータ) (2024-03-11T06:59:05Z) - SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes [59.23385953161328]
動的シーンのための新しいビュー合成は、コンピュータビジョンとグラフィックスにおいて依然として難しい問題である。
本稿では,動的シーンの動作と外観を疎制御点と高密度ガウスに明示的に分解する新しい表現を提案する。
提案手法は,高忠実度な外観を維持しつつ,ユーザ制御のモーション編集を可能にする。
論文 参考訳(メタデータ) (2023-12-04T11:57:14Z) - pCTFusion: Point Convolution-Transformer Fusion with Semantic Aware Loss
for Outdoor LiDAR Point Cloud Segmentation [8.24822602555667]
本研究では,カーネルベースの畳み込みと自己保持機構を組み合わせた新しいアーキテクチャpCTFusionを提案する。
提案アーキテクチャでは,エンコーダブロックの階層的位置に基づいて,ローカルとグローバルの2種類の自己保持機構を採用している。
結果は特に、クラス不均衡、スペースの欠如、隣り合わせの機能符号化によってしばしば誤って分類される、マイナーなクラスを奨励している。
論文 参考訳(メタデータ) (2023-07-27T11:12:48Z) - FRAME: Fast and Robust Autonomous 3D point cloud Map-merging for
Egocentric multi-robot exploration [2.433860819518925]
本稿では,エゴセントリックなヘテロジニアスマルチロボット探索のための3次元クラウドマップ統合フレームワークを提案する。
提案した新しいソリューションは、最先端の場所認識学習ディスクリプタを利用して、フレームワークのメインパイプラインを通じて、高速で堅牢なリージョン重複推定を提供する。
提案手法の有効性を, 地下環境における複数フィールドマルチロボット探査計画に基づいて実験的に評価した。
論文 参考訳(メタデータ) (2023-01-22T21:59:38Z) - LiDAR-aid Inertial Poser: Large-scale Human Motion Capture by Sparse
Inertial and LiDAR Sensors [38.60837840737258]
本研究では,大規模なシナリオにおいて,高精度な局所的なポーズとグローバルな軌跡を持つ3次元人間の動きを捉えるためのマルチセンサ融合法を提案する。
我々は,2段階のポーズ推定器を粗大な方法で設計し,そこでは点雲が粗大な体形状を提供し,IMU測定は局所的な動作を最適化する。
我々は,LiDAR-IMUマルチモーダルモキャップデータセット(LIPD)を長期シナリオで収集する。
論文 参考訳(メタデータ) (2022-05-30T20:15:11Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - MTLDesc: Looking Wider to Describe Better [21.81401301082768]
ローカルディスクリプタを"より広く見えるように"することに注力する。
我々は、MTLDescが非局所的な認識を得られるように、文脈増強と空間的注意機構を活用している。
MTLDescは,HPatches,Aachen Day-Nightローカライゼーション,InLoc屋内ローカライゼーションベンチマークにおいて,最先端のローカルディスクリプタをはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-14T11:16:05Z) - HCRF-Flow: Scene Flow from Point Clouds with Continuous High-order CRFs
and Position-aware Flow Embedding [116.77676304438792]
隣接点間の滑らかさを強制するために,動きの一貫性を導入する。
局所変換の剛性に関する制約は、各局所領域内のすべての点に対して一意的な剛性パラメータを共有することで追加される。
提案フレームワーク(hcrf-flow)は最先端の性能を実現し,これまでのアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-17T11:53:58Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。