論文の概要: Object Tracking by Jointly Exploiting Frame and Event Domain
- arxiv url: http://arxiv.org/abs/2109.09052v1
- Date: Sun, 19 Sep 2021 03:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:28:36.473601
- Title: Object Tracking by Jointly Exploiting Frame and Event Domain
- Title(参考訳): フレームとイベントドメインを併用した物体追跡
- Authors: Jiqing Zhang and Xin Yang and Yingkai Fu and Xiaopeng Wei and Baocai
Yin and Bo Dong
- Abstract要約: 本稿では,単一物体追跡性能を向上させるために,フレーム領域とイベント領域から視覚的手がかりを融合するマルチモーダルアプローチを提案する。
提案手法は,両領域の有意義な情報を効果的かつ適応的に組み合わせることができる。
提案手法は, 現状のフレームベーストラッキング手法を少なくとも10.4%, 11.9%, 代表的な成功率, 精度で上回っている。
- 参考スコア(独自算出の注目度): 31.534731963279274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the complementarity between conventional frame-based and
bio-inspired event-based cameras, we propose a multi-modal based approach to
fuse visual cues from the frame- and event-domain to enhance the single object
tracking performance, especially in degraded conditions (e.g., scenes with high
dynamic range, low light, and fast-motion objects). The proposed approach can
effectively and adaptively combine meaningful information from both domains.
Our approach's effectiveness is enforced by a novel designed cross-domain
attention schemes, which can effectively enhance features based on self- and
cross-domain attention schemes; The adaptiveness is guarded by a specially
designed weighting scheme, which can adaptively balance the contribution of the
two domains. To exploit event-based visual cues in single-object tracking, we
construct a large-scale frame-event-based dataset, which we subsequently employ
to train a novel frame-event fusion based model. Extensive experiments show
that the proposed approach outperforms state-of-the-art frame-based tracking
methods by at least 10.4% and 11.9% in terms of representative success rate and
precision rate, respectively. Besides, the effectiveness of each key component
of our approach is evidenced by our thorough ablation study.
- Abstract(参考訳): 従来のフレームベースとバイオインスパイアされたイベントベースのカメラの相補性に着想を得て、フレームとイベントドメインから視覚的な手がかりを融合し、特に劣化した状況(例えば、ダイナミックレンジ、低光度、高速モーションオブジェクト)において単一のオブジェクト追跡性能を向上させるマルチモーダルアプローチを提案する。
提案手法は,両領域の有意義な情報を効果的かつ適応的に組み合わせることができる。
提案手法の有効性は, 自己および横断的な注意方式に基づく特徴を効果的に向上する, 新規なクロスドメインアテンション方式によって実現され, 適応性は2つのドメインの寄与を適応的にバランスさせる, 特別に設計された重み付け方式によって保護される。
単一オブジェクト追跡におけるイベントベースの視覚的ヒントを活用するために,我々は,大規模フレームイベントベースのデータセットを構築した。
広範な実験により、提案手法は、代表的な成功率と精度率で、最先端のフレームベーストラッキング手法を少なくとも10.4%、11.9%上回ることがわかった。
また,我々のアプローチにおける各キーコンポーネントの有効性は,徹底的なアブレーション研究によって証明された。
関連論文リスト
- Relating Events and Frames Based on Self-Supervised Learning and
Uncorrelated Conditioning for Unsupervised Domain Adaptation [23.871860648919593]
イベントベースのカメラは、コンピュータビジョンタスクを実行するための正確かつ高時間分解能の測定を提供する。
それらの利点にもかかわらず、イベントベースのビジョンにディープラーニングを活用することは、注釈付きデータの不足のために大きな障害に直面する。
本稿では、イベントベースの未注釈データに基づいて、注釈付きフレームベースのデータに基づいてトレーニングされたディープニューラルネットワークを適用するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-02T05:10:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Towards Discriminative Representation: Multi-view Trajectory Contrastive
Learning for Online Multi-object Tracking [1.0474108328884806]
本稿では,多視点トラジェクティブ・コントラスト学習という戦略を提案し,各トラジェクトリを中心ベクトルとして表現する。
推論段階では、軌道表現の質をさらに高めるために類似性誘導型特徴融合戦略を開発する。
我々の手法は先行トラッカーを超え、新しい最先端のパフォーマンスを確立した。
論文 参考訳(メタデータ) (2022-03-27T04:53:31Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。