論文の概要: Dual Transfer Learning for Event-based End-task Prediction via Pluggable
Event to Image Translation
- arxiv url: http://arxiv.org/abs/2109.01801v1
- Date: Sat, 4 Sep 2021 06:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 09:56:10.075491
- Title: Dual Transfer Learning for Event-based End-task Prediction via Pluggable
Event to Image Translation
- Title(参考訳): プラガブルイベントによるイベントベースエンドタスク予測のためのデュアルトランスファー学習
- Authors: Lin Wang, Yujeong Chae, Kuk-Jin Yoon
- Abstract要約: イベントカメラは、ピクセルごとの強度変化を認識し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを出力する。
イベントは、エンコーダ・デコーダのようなネットワークに基づいて、エンドタスク学習、例えばセマンティックセグメンテーションにのみ使用できることが示されている。
本稿では,DTL(Dual Transfer Learning)と呼ばれるシンプルで柔軟な2ストリームフレームワークを提案し,エンドタスクの性能を効果的に向上させる。
- 参考スコア(独自算出の注目度): 33.28163268182018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras are novel sensors that perceive the per-pixel intensity changes
and output asynchronous event streams with high dynamic range and less motion
blur. It has been shown that events alone can be used for end-task learning,
\eg, semantic segmentation, based on encoder-decoder-like networks. However, as
events are sparse and mostly reflect edge information, it is difficult to
recover original details merely relying on the decoder. Moreover, most methods
resort to pixel-wise loss alone for supervision, which might be insufficient to
fully exploit the visual details from sparse events, thus leading to less
optimal performance. In this paper, we propose a simple yet flexible two-stream
framework named Dual Transfer Learning (DTL) to effectively enhance the
performance on the end-tasks without adding extra inference cost. The proposed
approach consists of three parts: event to end-task learning (EEL) branch,
event to image translation (EIT) branch, and transfer learning (TL) module that
simultaneously explores the feature-level affinity information and pixel-level
knowledge from the EIT branch to improve the EEL branch. This simple yet novel
method leads to strong representation learning from events and is evidenced by
the significant performance boost on the end-tasks such as semantic
segmentation and depth estimation.
- Abstract(参考訳): イベントカメラは、ピクセルごとの強度変化を認識し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを出力する新しいセンサーである。
エンコーダ-デコーダライクなネットワークに基づいて、イベントのみをエンドタスク学習や意味セグメンテーションに使用できることが示されている。
しかし、イベントは狭く、主にエッジ情報を反映しているため、デコーダのみに依存するオリジナルの詳細を復元することは困難である。
さらに、ほとんどのメソッドは、監督のためにピクセル単位での損失に頼るため、スパースイベントからの視覚的詳細を十分に活用できないため、最適なパフォーマンスが低下する可能性がある。
本稿では,DTL(Dual Transfer Learning)と呼ばれるシンプルな2ストリームフレームワークを提案し,追加の推論コストを伴わずに,エンドタスクのパフォーマンスを効果的に向上させる。
提案手法は、eel(event to end-task learning)ブランチ、eit(event to image translation)ブランチ、およびeitブランチから機能レベルの親和性情報とピクセルレベルの知識を同時に探索してeelブランチを改善するtransport learning(tl)モジュールの3つの部分から構成されている。
この単純で斬新な方法はイベントからの強力な表現学習をもたらし、セマンティックセグメンテーションや深さ推定といったエンドタスクのパフォーマンス向上によって証明される。
関連論文リスト
- EffiPerception: an Efficient Framework for Various Perception Tasks [6.1522068855729755]
EffiPerceptionは、一般的な学習パターンを探求し、モジュールを増やすためのフレームワークである。
複数の知覚タスクにおいて比較的低いメモリコストで、高い精度のロバスト性を実現することができる。
EffiPerceptionは4つの検出およびセグメンテーションタスクにおいて、精度-メモリ全体のパフォーマンスが大幅に向上する可能性がある。
論文 参考訳(メタデータ) (2024-03-18T23:22:37Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - TRACER: Extreme Attention Guided Salient Object Tracing Network [3.2434811678562676]
本稿では,注意誘導型トレーシングモジュールを組み込んで,鮮明なエッジで有意な物体を検出するTRACERを提案する。
13の既存手法との比較により、TRACERは5つのベンチマークデータセットで最先端のパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2021-12-14T13:20:07Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Event-LSTM: An Unsupervised and Asynchronous Learning-based
Representation for Event-based Data [8.931153235278831]
イベントカメラは、アクティビティ駆動のバイオインスパイアされたビジョンセンサーです。
LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。
また、最先端のイベントをデノージングプロセスにメモリを導入することで、デノージングを前進させます。
論文 参考訳(メタデータ) (2021-05-10T09:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。