論文の概要: EventDance++: Language-guided Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition
- arxiv url: http://arxiv.org/abs/2409.12778v2
- Date: Mon, 23 Sep 2024 01:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:23:33.616971
- Title: EventDance++: Language-guided Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition
- Title(参考訳): EventDance++: イベントベースのオブジェクト認識のための言語誘導非教師なしソースフリーのクロスモーダル適応
- Authors: Xu Zheng, Lin Wang,
- Abstract要約: EventDance++は、教師なしソースフリーのクロスモーダル適応問題に対処する新しいフレームワークである。
自己教師型でイベントから強度フレームを再構成するL-RMB (L-RMB) モジュールを提案する。
本稿では,複数のイベント表現を利用したマルチ表現知識適応(MKA)モジュールを提案する。
- 参考スコア(独自算出の注目度): 9.573188010530217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the challenging problem of cross-modal (image-to-events) adaptation for event-based recognition without accessing any labeled source image data. This task is arduous due to the substantial modality gap between images and events. With only a pre-trained source model available, the key challenge lies in extracting knowledge from this model and effectively transferring knowledge to the event-based domain. Inspired by the natural ability of language to convey semantics across different modalities, we propose EventDance++, a novel framework that tackles this unsupervised source-free cross-modal adaptation problem from a language-guided perspective. We introduce a language-guided reconstruction-based modality bridging (L-RMB) module, which reconstructs intensity frames from events in a self-supervised manner. Importantly, it leverages a vision-language model to provide further supervision, enriching the surrogate images and enhancing modality bridging. This enables the creation of surrogate images to extract knowledge (i.e., labels) from the source model. On top, we propose a multi-representation knowledge adaptation (MKA) module to transfer knowledge to target models, utilizing multiple event representations to capture the spatiotemporal characteristics of events fully. The L-RMB and MKA modules are jointly optimized to achieve optimal performance in bridging the modality gap. Experiments on three benchmark datasets demonstrate that EventDance++ performs on par with methods that utilize source data, validating the effectiveness of our language-guided approach in event-based recognition.
- Abstract(参考訳): 本稿では、ラベル付きソース画像データにアクセスすることなく、イベントベースの認識のためのクロスモーダル(イメージ・ツー・イベント)適応の課題に対処する。
この課題は、画像とイベントの間にかなりのモダリティのギャップがあるため、困難である。
トレーニング済みのソースモデルのみを使用することで、このモデルから知識を抽出し、イベントベースのドメインに効果的に知識を移すことが大きな課題になります。
異なるモダリティ間でセマンティクスを伝達する言語の自然な能力に着想を得たEventDance++は、教師なしソースフリーのクロスモーダル適応問題に言語誘導の観点から取り組む新しいフレームワークである。
自己教師型でイベントから強度フレームを再構成するL-RMB (L-RMB) モジュールを提案する。
重要なことは、視覚言語モデルを活用して、さらなる監視を提供し、サロゲート画像を強化し、モダリティブリッジングを強化することである。
これにより、サロゲート画像の作成により、ソースモデルから知識(ラベル)を抽出することができる。
さらに,複数のイベント表現を用いて,事象の時空間特性を完全に把握し,対象モデルに知識を伝達する多表現知識適応(MKA)モジュールを提案する。
L-RMBおよびMKAモジュールは、モダリティギャップをブリッジする際の最適性能を達成するために共同最適化されている。
3つのベンチマークデータセットの実験では、EventDance++がソースデータを利用するメソッドと同等に動作し、イベントベースの認識における言語誘導アプローチの有効性を検証する。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation [18.895926089773177]
クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。
深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-04-01T13:23:04Z) - EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition [9.573188010530217]
我々は、ラベル付きソース画像データにアクセスすることなく、イベントベースのオブジェクト認識のためのクロスモーダル(画像からイベントへの)適応を実現するための最初の試みを行う。
我々は、この教師なしソースフリーのクロスモーダル適応問題に対して、EventDanceと呼ばれる新しいフレームワークを提案する。
2つの設定を持つ3つのベンチマークデータセットの実験は、EventDanceがソースデータを利用する以前のメソッドと同等であることを示している。
論文 参考訳(メタデータ) (2024-03-21T02:19:54Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Zero-shot-Learning Cross-Modality Data Translation Through Mutual
Information Guided Stochastic Diffusion [5.795193288204816]
モダリティ間のデータ変換は、画像処理に大きな関心を集めている。
本稿では,MIDiffusion(Multual Information Diffusion Guided cross-modality data translation Model)という,教師なしゼロショット学習手法を提案する。
我々は,MIDiffusionの高度な性能を,有意な生成モデル群と比較して実証的に示す。
論文 参考訳(メタデータ) (2023-01-31T16:24:34Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。