論文の概要: EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition
- arxiv url: http://arxiv.org/abs/2403.14082v1
- Date: Thu, 21 Mar 2024 02:19:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:46:42.777382
- Title: EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition
- Title(参考訳): EventDance: イベントベースオブジェクト認識のための教師なしソースフリーのクロスモーダル適応
- Authors: Xu Zheng, Lin Wang,
- Abstract要約: 我々は、ラベル付きソース画像データにアクセスすることなく、イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。
我々は、この教師なしソースフリーのクロスモーダル適応問題に対して、EventDanceと呼ばれる新しいフレームワークを提案する。
2つの設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。
- 参考スコア(独自算出の注目度): 9.573188010530217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we make the first attempt at achieving the cross-modal (i.e., image-to-events) adaptation for event-based object recognition without accessing any labeled source image data owning to privacy and commercial issues. Tackling this novel problem is non-trivial due to the novelty of event cameras and the distinct modality gap between images and events. In particular, as only the source model is available, a hurdle is how to extract the knowledge from the source model by only using the unlabeled target event data while achieving knowledge transfer. To this end, we propose a novel framework, dubbed EventDance for this unsupervised source-free cross-modal adaptation problem. Importantly, inspired by event-to-video reconstruction methods, we propose a reconstruction-based modality bridging (RMB) module, which reconstructs intensity frames from events in a self-supervised manner. This makes it possible to build up the surrogate images to extract the knowledge (i.e., labels) from the source model. We then propose a multi-representation knowledge adaptation (MKA) module that transfers the knowledge to target models learning events with multiple representation types for fully exploring the spatiotemporal information of events. The two modules connecting the source and target models are mutually updated so as to achieve the best performance. Experiments on three benchmark datasets with two adaption settings show that EventDance is on par with prior methods utilizing the source data.
- Abstract(参考訳): 本稿では,プライバシや商業上の問題に係わるラベル付きソース画像データにアクセスすることなく,イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。
この問題に対処するのは、イベントカメラの新規性と、画像とイベント間の明確なモダリティギャップのため、簡単ではない。
特に、ソースモデルのみが利用可能であるように、ハードルは、知識伝達を達成しつつラベル付けされていないターゲットイベントデータのみを使用することで、ソースモデルから知識を抽出する方法である。
そこで我々は,この教師なしソースフリーのクロスモーダル適応問題に対して,EventDanceと呼ばれる新しいフレームワークを提案する。
重要なことは、イベント・ツー・ビデオの再構成法に着想を得て、自己監督的な方法でイベントから強度フレームを再構成するリコンストラクションベースのモダリティブリッジング(RMB)モジュールを提案することである。
これにより、サロゲートイメージを構築して、ソースモデルから知識(ラベル)を抽出することができる。
次に、複数の表現型を持つ学習イベントを対象とするモデルに知識を伝達し、イベントの時空間情報を完全に探索する多表現知識適応(MKA)モジュールを提案する。
ソースとターゲットモデルを接続する2つのモジュールは、最高のパフォーマンスを達成するために相互に更新される。
2つの適応設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。
関連論文リスト
- EventDance++: Language-guided Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition [9.573188010530217]
EventDance++は、教師なしソースフリーのクロスモーダル適応問題に対処する新しいフレームワークである。
自己教師型でイベントから強度フレームを再構成するL-RMB (L-RMB) モジュールを提案する。
本稿では,複数のイベント表現を利用したマルチ表現知識適応(MKA)モジュールを提案する。
論文 参考訳(メタデータ) (2024-09-19T13:46:19Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Cross-Domain Transfer Learning with CoRTe: Consistent and Reliable
Transfer from Black-Box to Lightweight Segmentation Model [25.3403116022412]
CoRTeは、ブラックボックスソースモデルから信頼できる知識を抽出する擬似ラベリング関数である。
我々は,2つの合成から現実の環境でCoRTeをベンチマークし,ブラックボックスモデルを用いて目標データ分布の軽量モデルにおける知識を伝達する際,顕著な結果を示した。
論文 参考訳(メタデータ) (2024-02-20T16:35:14Z) - Multimodal Event Transformer for Image-guided Story Ending Generation [36.1319565907582]
画像誘導ストーリーエンディング生成(IgSEG)は、与えられたストーリープロットとエンディング画像に基づいてストーリーエンディングを生成する。
既存の手法は、クロスモーダルな特徴融合に重点を置いているが、ストーリープロットやエンディングイメージから暗黙の情報を推論し、マイニングするのを見落としている。
IgSEGのイベントベースの推論フレームワークであるマルチモーダルイベントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2023-01-26T19:10:07Z) - Event Camera Data Pre-training [14.77724035068357]
我々のモデルは、自己教師付き学習フレームワークであり、ペア化されたイベントカメラデータと自然なRGBイメージをトレーニングに使用しています。
我々はN-ImageNetデータセットで64.83%でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-01-05T06:32:50Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。