論文の概要: HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking
- arxiv url: http://arxiv.org/abs/2510.19560v1
- Date: Wed, 22 Oct 2025 13:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.823894
- Title: HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking
- Title(参考訳): HAD:イベントベース物体追跡における橋梁時空間ギャップに対する階層的非対称蒸留
- Authors: Yao Deng, Xian Zhong, Wenxuan Liu, Zhaofei Yu, Jingling Yuan, Tiejun Huang,
- Abstract要約: イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
- 参考スコア(独自算出の注目度): 80.07224739976911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB cameras excel at capturing rich texture details with high spatial resolution, whereas event cameras offer exceptional temporal resolution and a high dynamic range (HDR). Leveraging their complementary strengths can substantially enhance object tracking under challenging conditions, such as high-speed motion, HDR environments, and dynamic background interference. However, a significant spatio-temporal asymmetry exists between these two modalities due to their fundamentally different imaging mechanisms, hindering effective multi-modal integration. To address this issue, we propose {Hierarchical Asymmetric Distillation} (HAD), a multi-modal knowledge distillation framework that explicitly models and mitigates spatio-temporal asymmetries. Specifically, HAD proposes a hierarchical alignment strategy that minimizes information loss while maintaining the student network's computational efficiency and parameter compactness. Extensive experiments demonstrate that HAD consistently outperforms state-of-the-art methods, and comprehensive ablation studies further validate the effectiveness and necessity of each designed component. The code will be released soon.
- Abstract(参考訳): RGBカメラは、高空間解像度でリッチテクスチャの詳細を捉えるのに優れ、一方イベントカメラは例外的な時間分解能と高ダイナミックレンジ(HDR)を提供する。
補完的な強度を活用することで、高速モーション、HDR環境、動的バックグラウンド干渉といった困難な条件下でのオブジェクトトラッキングを大幅に強化することができる。
しかしながら、これらの2つのモードの間には、基本的に異なるイメージング機構のため、有意な時空間非対称性が存在し、効果的なマルチモーダル積分を妨げている。
この問題に対処するために,時空間非対称性を明示的にモデル化し緩和する多モード知識蒸留フレームワークである,階層的非対称蒸留法(HAD)を提案する。
具体的には、学生ネットワークの計算効率とパラメータのコンパクトさを維持しながら、情報損失を最小限に抑える階層的アライメント戦略を提案する。
広範囲にわたる実験により、HADは最先端の手法を一貫して上回り、包括的なアブレーション研究により、各設計部品の有効性と必要性がさらに検証された。
コードはまもなくリリースされる。
関連論文リスト
- SSCM: A Spatial-Semantic Consistent Model for Multi-Contrast MRI Super-Resolution [11.194678655584788]
MC-MRI SRは、高分解能(HR)参照を活用することで、低分解能(LR)コントラストを強化することを目的としている。
主な課題は、空間的なセマンティックな一貫性を維持することである。
論文 参考訳(メタデータ) (2025-09-23T03:24:32Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis [56.311477476580926]
超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。
LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
論文 参考訳(メタデータ) (2025-05-31T07:28:32Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - GaraMoSt: Parallel Multi-Granularity Motion and Structural Modeling for Efficient Multi-Frame Interpolation in DSA Images [35.42266460525047]
Digital Subtraction Angiography (DSA) 画像は複雑な血管構造と様々な動きを含んでいる。
自然シーンビデオフレーム補間法(VFI)を適用すると、動きのアーティファクト、構造的散逸、ぼやけが生じる。
MoSt-DSAはこれらの問題に初めて対処し、SOTAの結果を得た。
我々は,これらの問題に同じ計算時間スケールで対処するGalaMoStを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:04:12Z) - PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Alignment [91.38256332633544]
PASTAは、HDRデゴスティングのためのプログレッシブアグリゲーションアグリゲーション・時空間アライメントフレームワークである。
提案手法は,特徴分散中の階層的表現を活用することにより,有効性と効率性を実現する。
実験結果から,従来のSOTA法よりもPASTAの方が視覚的品質と性能の両方で優れていることが示された。
論文 参考訳(メタデータ) (2024-03-15T15:05:29Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。