論文の概要: TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged
Object Detection Via Learnable Token Selection
- arxiv url: http://arxiv.org/abs/2311.02535v1
- Date: Sun, 5 Nov 2023 01:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:03:07.740824
- Title: TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged
Object Detection Via Learnable Token Selection
- Title(参考訳): tokenmotion: 学習可能なトークン選択によるビデオカモフラージュ物体検出のためのモーションガイド視覚トランスフォーマー
- Authors: Zifan Yu and Erfan Bank Tavakoli and Meida Chen and Suya You and
Raghuveer Rao and Sanjeev Agarwal and Fengbo Ren
- Abstract要約: TokenMotion(TMNet)は、ビデオカモフラージュオブジェクト検出を強化するトランスフォーマーベースのモデルである。
TMNetはビデオカモフラージュオブジェクト検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.818098461038703
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The area of Video Camouflaged Object Detection (VCOD) presents unique
challenges in the field of computer vision due to texture similarities between
target objects and their surroundings, as well as irregular motion patterns
caused by both objects and camera movement. In this paper, we introduce
TokenMotion (TMNet), which employs a transformer-based model to enhance VCOD by
extracting motion-guided features using a learnable token selection. Evaluated
on the challenging MoCA-Mask dataset, TMNet achieves state-of-the-art
performance in VCOD. It outperforms the existing state-of-the-art method by a
12.8% improvement in weighted F-measure, an 8.4% enhancement in S-measure, and
a 10.7% boost in mean IoU. The results demonstrate the benefits of utilizing
motion-guided features via learnable token selection within a transformer-based
framework to tackle the intricate task of VCOD.
- Abstract(参考訳): Video Camouflaged Object Detection (VCOD) の領域は、対象物とその周囲のテクスチャの類似性や、物体とカメラの動きの両方によって生じる不規則な動きパターンによって、コンピュータビジョンの分野におけるユニークな課題を呈している。
本稿では,学習可能なトークン選択を用いて動作誘導特徴を抽出することによりVCODを強化するトランスフォーマーモデルを用いたTokenMotion(TMNet)を提案する。
挑戦的なMoCA-Maskデータセットに基づいて、TMNetはVCODの最先端のパフォーマンスを達成する。
12.8%の重み付きF尺度の改善、8.4%のS尺度の強化、平均IoUの10.7%のアップにより、既存の最先端手法よりも優れている。
本研究は,vcodの複雑な課題に取り組むために,トランスフォーマフレームワーク内で学習可能なトークン選択によるモーションガイド機能を活用することの利点を示す。
関連論文リスト
- TrackGo: A Flexible and Efficient Method for Controllable Video Generation [32.906496577618924]
条件付きビデオ生成のための新しいアプローチであるTrackGoを紹介する。
TrackGoは、ビデオコンテンツを操作するための柔軟で正確なメカニズムを提供する。
また,制御実装のためのTrackAdapterを提案する。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文 参考訳(メタデータ) (2022-11-23T07:16:16Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - VM-MODNet: Vehicle Motion aware Moving Object Detection for Autonomous
Driving [3.6550372593827887]
移動物体検出(MOD)は自律運転において重要な課題である。
我々は,車両の運動情報を活用し,モデルに入力し,自我運動に基づく適応機構を実現することを目的とする。
Vehicle Motion (VMT) を用いたモデルでは,ベースラインアーキテクチャよりもmIoUが5.6%向上した。
論文 参考訳(メタデータ) (2021-04-22T10:46:55Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。