論文の概要: Unsupervised Spike Depth Estimation via Cross-modality Cross-domain
Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2208.12527v1
- Date: Fri, 26 Aug 2022 09:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:08:14.556978
- Title: Unsupervised Spike Depth Estimation via Cross-modality Cross-domain
Knowledge Transfer
- Title(参考訳): クロスモダリティクロスドメイン知識転送による教師なしスパイク深さ推定
- Authors: Jiaming Liu, Qizhe Zhang, Jianing Li, Ming Lu, Tiejun Huang, and
Shanghang Zhang
- Abstract要約: ニューロモルフィックスパイクカメラは、バイオインスパイアされた方法で、高時間分解能のデータストリームを生成する。
本稿では,教師なしスパイク深さ推定のためのクロスモダリティ・クロスドメイン・フレームワークを提案する。
本手法は,ソーススパイク領域を模擬することで,ソースRGBとターゲットスパイクの巨大なギャップを狭める。
- 参考スコア(独自算出の注目度): 45.92026481500022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The neuromorphic spike camera generates data streams with high temporal
resolution in a bio-inspired way, which has vast potential in the real-world
applications such as autonomous driving. In contrast to RGB streams, spike
streams have an inherent advantage to overcome motion blur, leading to more
accurate depth estimation for high-velocity objects. However, training the
spike depth estimation network in a supervised manner is almost impossible
since it is extremely laborious and challenging to obtain paired depth labels
for temporally intensive spike streams. In this paper, instead of building a
spike stream dataset with full depth labels, we transfer knowledge from the
open-source RGB datasets (e.g., KITTI) and estimate spike depth in an
unsupervised manner. The key challenges for such problem lie in the modality
gap between RGB and spike modalities, and the domain gap between labeled source
RGB and unlabeled target spike domains. To overcome these challenges, we
introduce a cross-modality cross-domain (BiCross) framework for unsupervised
spike depth estimation. Our method narrows the enormous gap between source RGB
and target spike by introducing the mediate simulated source spike domain. To
be specific, for the cross-modality phase, we propose a novel Coarse-to-Fine
Knowledge Distillation (CFKD), which transfers the image and pixel level
knowledge from source RGB to source spike. Such design leverages the abundant
semantic and dense temporal information of RGB and spike modalities
respectively. For the cross-domain phase, we introduce the Uncertainty Guided
Mean-Teacher (UGMT) to generate reliable pseudo labels with uncertainty
estimation, alleviating the shift between the source spike and target spike
domains. Besides, we propose a Global-Level Feature Alignment method (GLFA) to
align the feature between two domains and generate more reliable pseudo labels.
- Abstract(参考訳): このニューロモルフィックスパイクカメラは、バイオインスパイアされた方法で、時間分解能の高いデータストリームを生成する。
RGBストリームとは対照的に、スパイクストリームは動きのぼかしを克服する固有の利点があり、高速物体のより正確な深さ推定につながる。
しかし, スパイク深度推定ネットワークのトレーニングは, 時間的に集中的なスパイクストリームのためのペア深度ラベルの取得が極めて困難であるため, ほぼ不可能である。
本稿では,全深度ラベルを用いたスパイクストリームデータセットを構築する代わりに,オープンソースのRGBデータセット(KITTIなど)から知識を伝達し,教師なしの方法でスパイクストリームを推定する。
このような問題の鍵となる課題は、RGBとスパイクモダリティの間のモダリティギャップと、ラベル付きソースRGBとラベル付きターゲットスパイクドメインの間のドメインギャップである。
これらの課題を克服するために,教師なしスパイク深さ推定のためのクロスモダリティクロスドメイン(bicross)フレームワークを提案する。
提案手法は,ソーススパイク領域を媒介としたシミュレーションにより,ソースRGBとターゲットスパイクの巨大なギャップを狭める。
具体的には、クロスモダリティフェーズにおいて、画像と画素レベルの知識をソースrgbからソーススパイクに転送する新しい粗粒度から細度までの知識蒸留(cfkd)を提案する。
このような設計は、それぞれRGBとスパイクモーダルの豊富な意味情報と密集時間情報を活用する。
クロスドメインフェーズでは、不確実性誘導平均教師(ugmt)を導入し、不確実性推定を伴う信頼できる擬似ラベルを生成し、ソーススパイクとターゲットスパイクドメイン間のシフトを緩和する。
さらに、2つのドメイン間の機能を調整し、より信頼性の高い擬似ラベルを生成するグローバルレベル機能アライメント手法(glfa)を提案する。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Context-Preserving Instance-Level Augmentation and Deformable
Convolution Networks for SAR Ship Detection [50.53262868498824]
ランダムな方向と部分的な情報損失によるSAR画像のターゲット形状の変形は、SAR船の検出において必須の課題である。
ターゲット内の部分的な情報損失に頑健なディープネットワークをトレーニングするためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-02-14T07:01:01Z) - RGB-D Salient Object Detection with Ubiquitous Target Awareness [37.6726410843724]
我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2021-09-08T04:27:29Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection [107.96418568008644]
そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
論文 参考訳(メタデータ) (2020-03-19T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。