論文の概要: Unsupervised Spike Depth Estimation via Cross-modality Cross-domain
Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2208.12527v1
- Date: Fri, 26 Aug 2022 09:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:08:14.556978
- Title: Unsupervised Spike Depth Estimation via Cross-modality Cross-domain
Knowledge Transfer
- Title(参考訳): クロスモダリティクロスドメイン知識転送による教師なしスパイク深さ推定
- Authors: Jiaming Liu, Qizhe Zhang, Jianing Li, Ming Lu, Tiejun Huang, and
Shanghang Zhang
- Abstract要約: ニューロモルフィックスパイクカメラは、バイオインスパイアされた方法で、高時間分解能のデータストリームを生成する。
本稿では,教師なしスパイク深さ推定のためのクロスモダリティ・クロスドメイン・フレームワークを提案する。
本手法は,ソーススパイク領域を模擬することで,ソースRGBとターゲットスパイクの巨大なギャップを狭める。
- 参考スコア(独自算出の注目度): 45.92026481500022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The neuromorphic spike camera generates data streams with high temporal
resolution in a bio-inspired way, which has vast potential in the real-world
applications such as autonomous driving. In contrast to RGB streams, spike
streams have an inherent advantage to overcome motion blur, leading to more
accurate depth estimation for high-velocity objects. However, training the
spike depth estimation network in a supervised manner is almost impossible
since it is extremely laborious and challenging to obtain paired depth labels
for temporally intensive spike streams. In this paper, instead of building a
spike stream dataset with full depth labels, we transfer knowledge from the
open-source RGB datasets (e.g., KITTI) and estimate spike depth in an
unsupervised manner. The key challenges for such problem lie in the modality
gap between RGB and spike modalities, and the domain gap between labeled source
RGB and unlabeled target spike domains. To overcome these challenges, we
introduce a cross-modality cross-domain (BiCross) framework for unsupervised
spike depth estimation. Our method narrows the enormous gap between source RGB
and target spike by introducing the mediate simulated source spike domain. To
be specific, for the cross-modality phase, we propose a novel Coarse-to-Fine
Knowledge Distillation (CFKD), which transfers the image and pixel level
knowledge from source RGB to source spike. Such design leverages the abundant
semantic and dense temporal information of RGB and spike modalities
respectively. For the cross-domain phase, we introduce the Uncertainty Guided
Mean-Teacher (UGMT) to generate reliable pseudo labels with uncertainty
estimation, alleviating the shift between the source spike and target spike
domains. Besides, we propose a Global-Level Feature Alignment method (GLFA) to
align the feature between two domains and generate more reliable pseudo labels.
- Abstract(参考訳): このニューロモルフィックスパイクカメラは、バイオインスパイアされた方法で、時間分解能の高いデータストリームを生成する。
RGBストリームとは対照的に、スパイクストリームは動きのぼかしを克服する固有の利点があり、高速物体のより正確な深さ推定につながる。
しかし, スパイク深度推定ネットワークのトレーニングは, 時間的に集中的なスパイクストリームのためのペア深度ラベルの取得が極めて困難であるため, ほぼ不可能である。
本稿では,全深度ラベルを用いたスパイクストリームデータセットを構築する代わりに,オープンソースのRGBデータセット(KITTIなど)から知識を伝達し,教師なしの方法でスパイクストリームを推定する。
このような問題の鍵となる課題は、RGBとスパイクモダリティの間のモダリティギャップと、ラベル付きソースRGBとラベル付きターゲットスパイクドメインの間のドメインギャップである。
これらの課題を克服するために,教師なしスパイク深さ推定のためのクロスモダリティクロスドメイン(bicross)フレームワークを提案する。
提案手法は,ソーススパイク領域を媒介としたシミュレーションにより,ソースRGBとターゲットスパイクの巨大なギャップを狭める。
具体的には、クロスモダリティフェーズにおいて、画像と画素レベルの知識をソースrgbからソーススパイクに転送する新しい粗粒度から細度までの知識蒸留(cfkd)を提案する。
このような設計は、それぞれRGBとスパイクモーダルの豊富な意味情報と密集時間情報を活用する。
クロスドメインフェーズでは、不確実性誘導平均教師(ugmt)を導入し、不確実性推定を伴う信頼できる擬似ラベルを生成し、ソーススパイクとターゲットスパイクドメイン間のシフトを緩和する。
さらに、2つのドメイン間の機能を調整し、より信頼性の高い擬似ラベルを生成するグローバルレベル機能アライメント手法(glfa)を提案する。
関連論文リスト
- Towards Privacy-Supporting Fall Detection via Deep Unsupervised
RGB2Depth Adaptation [31.097512110625964]
転倒検知は、システムが警告をトリガーし、転倒を経験した場合の迅速な介入を可能にするため、健康モニタリングにおいて重要なタスクである。
本稿では,RGB学習モデルを奥行き領域に適用可能なプライバシ支援ソリューションを提案する。
本稿では,ラベル付きRGBデータと未ラベル深度データを活用する,教師なしRGB to Depth (RGB2Depth) クロスモーダルドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2023-08-23T10:35:37Z) - Digging Into Uncertainty-based Pseudo-label for Robust Stereo Matching [39.959000340261625]
本稿では,ロバストなステレオマッチングのための不確実性推定法を提案する。
事前学習されたモデルを新しい領域に適応させるために,不確実性に基づく擬似ラベルを提案する。
本手法は,ロバスト・ビジョン・チャレンジ2020のステレオタスクにおいて,強いクロスドメイン,適応,共同一般化を示す。
論文 参考訳(メタデータ) (2023-07-31T09:11:31Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation [2.2032272277334375]
深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
論文 参考訳(メタデータ) (2022-10-13T05:17:34Z) - Visible-Infrared Person Re-Identification Using Privileged Intermediate
Information [10.816003787786766]
クロスモーダルな人物再識別(ReID)は、RGBとIRモダリティ間のデータ分散の大きなドメインシフトのために困難である。
本稿では2つのメインドメイン間のブリッジとして機能する中間仮想ドメインを作成するための新しいアプローチを提案する。
我々は、深いReIDモデルをトレーニングするための追加情報を提供する、可視領域と赤外線領域間の画像を生成する新しい手法を考案した。
論文 参考訳(メタデータ) (2022-09-19T21:08:14Z) - RAIN: RegulArization on Input and Network for Black-Box Domain
Adaptation [80.03883315743715]
ソースのないドメイン適応は、ソースデータを公開することなく、ソース訓練されたモデルをターゲットドメインに転送する。
このパラダイムは、ソースモデルに対する敵対的な攻撃のため、データ漏洩のリスクがある。
そこで我々は,入力レベルとネットワークレベルの両方の正規化からブラックボックスドメインを適応させる新しい手法であるRAIN(RegulArization on Input and Network)を提案する。
論文 参考訳(メタデータ) (2022-08-22T18:18:47Z) - RGB-D Salient Object Detection with Ubiquitous Target Awareness [37.6726410843724]
我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2021-09-08T04:27:29Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。