論文の概要: DETACH : Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning
- arxiv url: http://arxiv.org/abs/2512.20409v1
- Date: Tue, 23 Dec 2025 14:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.912269
- Title: DETACH : Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning
- Title(参考訳): DETACH : 段階学習型遠心型ビデオセンサと環境センサのための分解型時空間アライメント
- Authors: Junho Yoon, Jaemo Jung, Hyunju Kim, Dongman Lee,
- Abstract要約: ウェアラブルセンサーのエゴセントリックな配向は、人間のアクション認識を約束するが、ユーザの不快感、プライバシの懸念、スケーラビリティに現実的な制限に直面している。
我々は、非侵襲的でスケーラブルな代替手段として、周囲センサーを用いたエキゾセントリックなビデオを探究する。
Opportunity++とHambi-USPWUデータセットのダウンストリームタスクによる総合的な実験は、適応型エゴセントリックウェアングベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 7.149401911329968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning egocentric video with wearable sensors have shown promise for human action recognition, but face practical limitations in user discomfort, privacy concerns, and scalability. We explore exocentric video with ambient sensors as a non-intrusive, scalable alternative. While prior egocentric-wearable works predominantly adopt Global Alignment by encoding entire sequences into unified representations, this approach fails in exocentric-ambient settings due to two problems: (P1) inability to capture local details such as subtle motions, and (P2) over-reliance on modality-invariant temporal patterns, causing misalignment between actions sharing similar temporal patterns with different spatio-semantic contexts. To resolve these problems, we propose DETACH, a decomposed spatio-temporal framework. This explicit decomposition preserves local details, while our novel sensor-spatial features discovered via online clustering provide semantic grounding for context-aware alignment. To align the decomposed features, our two-stage approach establishes spatial correspondence through mutual supervision, then performs temporal alignment via a spatial-temporal weighted contrastive loss that adaptively handles easy negatives, hard negatives, and false negatives. Comprehensive experiments with downstream tasks on Opportunity++ and HWU-USP datasets demonstrate substantial improvements over adapted egocentric-wearable baselines.
- Abstract(参考訳): ウェアラブルセンサーによるエゴセントリックなビデオのアライメントは、人間のアクション認識を約束するが、ユーザの不快感、プライバシの懸念、スケーラビリティに現実的な制限に直面している。
我々は、非侵襲的でスケーラブルな代替手段として、周囲センサーを用いたエキゾセントリックなビデオを探究する。
従来のエゴセントリック・ウェアブル・ワークは、全シーケンスを統一表現に符号化することで、グローバルアライメントを主に採用していたが、(P1)微妙な動きのような局所的な詳細を捉えることができないこと、(P2)モダリティ不変の時間パターンへの過度な依存、および、異なる時相コンテキストで同様の時間パターンを共有するアクション間の不一致という2つの問題により、この手法は、エクソセントリック・アライメント・セッティングで失敗する。
これらの問題を解決するために,分解した時空間フレームワークであるDETACHを提案する。
この明示的な分解は局所的な詳細を保ちながら、オンラインクラスタリングによって発見された新しいセンサ空間特徴は、コンテキスト認識アライメントのためのセマンティックグラウンドを提供する。
分解された特徴を整合させるために,2段階のアプローチは相互監督を通じて空間的対応を確立し,空間的時間的重み付きコントラスト的損失によって時間的アライメントを行い,容易に負,強負,偽陰を処理した。
Opportunity++とHWU-USPデータセットのダウンストリームタスクによる総合的な実験は、適応型エゴセントリックウェアングベースラインよりも大幅に改善されている。
関連論文リスト
- TaCo: Capturing Spatio-Temporal Semantic Consistency in Remote Sensing Change Detection [54.22717266034045]
Ta-Coは時間的意味遷移のための一貫したセマンティックネットワークである。
我々は,Ta-Coがリモートセンシング検出タスクにおいて一貫したSOTA性能を実現することを示す。
この設計は推論中に余分な計算オーバーヘッドを伴わずにかなりの利得を得ることができる。
論文 参考訳(メタデータ) (2025-11-25T13:44:29Z) - Belief-Conditioned One-Step Diffusion: Real-Time Trajectory Planning with Just-Enough Sensing [1.6984211127623137]
我々は、10ミリ秒の前方通過で短水平軌道を返す最初のプランナーであるBelief-Conditioned One-Step Diffusion (B-COD)を提示する。
この1つのプロキシは、ソフト・アクター・クリティカルがオンラインでセンサーを選択するのに十分であり、ポーズ・コ・グロースを束縛しながらエネルギーを最適化することを示している。
論文 参考訳(メタデータ) (2025-08-16T21:34:16Z) - Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking [16.366398265001422]
3D多目的追跡は、自動運転分野において重要かつ困難な課題である。
本稿では,この原理を実現するために動的シーンCue-Consistency Tracker(DSC-Track)を提案する。
論文 参考訳(メタデータ) (2025-08-15T08:48:13Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - STSA: Spatial-Temporal Semantic Alignment for Visual Dubbing [2.231167375820083]
空間的領域と時間的領域とのセマンティックな特徴の整合性は、顔の動きの安定化に有望なアプローチである、と我々は主張する。
本稿では,2経路アライメント機構と識別可能な意味表現を導入した時空間意味アライメント(STSA)手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T11:04:10Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - Dynamic Position Transformation and Boundary Refinement Network for Left Atrial Segmentation [17.09918110723713]
左心房細動は不整脈(心房細動)の診断において重要な手法である。
LAセグメンテーションの現在のほとんどの方法は、入力データがオブジェクト指向のセンタートリミングによって取得されると厳密に仮定している。
本稿では,これらの問題に対処するための新しい動的位置変換と境界改善ネットワーク(DPBNet)を提案する。
論文 参考訳(メタデータ) (2024-07-07T22:09:35Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。