論文の概要: TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged
Object Detection Via Learnable Token Selection
- arxiv url: http://arxiv.org/abs/2311.02535v1
- Date: Sun, 5 Nov 2023 01:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:03:07.740824
- Title: TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged
Object Detection Via Learnable Token Selection
- Title(参考訳): tokenmotion: 学習可能なトークン選択によるビデオカモフラージュ物体検出のためのモーションガイド視覚トランスフォーマー
- Authors: Zifan Yu and Erfan Bank Tavakoli and Meida Chen and Suya You and
Raghuveer Rao and Sanjeev Agarwal and Fengbo Ren
- Abstract要約: TokenMotion(TMNet)は、ビデオカモフラージュオブジェクト検出を強化するトランスフォーマーベースのモデルである。
TMNetはビデオカモフラージュオブジェクト検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.818098461038703
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The area of Video Camouflaged Object Detection (VCOD) presents unique
challenges in the field of computer vision due to texture similarities between
target objects and their surroundings, as well as irregular motion patterns
caused by both objects and camera movement. In this paper, we introduce
TokenMotion (TMNet), which employs a transformer-based model to enhance VCOD by
extracting motion-guided features using a learnable token selection. Evaluated
on the challenging MoCA-Mask dataset, TMNet achieves state-of-the-art
performance in VCOD. It outperforms the existing state-of-the-art method by a
12.8% improvement in weighted F-measure, an 8.4% enhancement in S-measure, and
a 10.7% boost in mean IoU. The results demonstrate the benefits of utilizing
motion-guided features via learnable token selection within a transformer-based
framework to tackle the intricate task of VCOD.
- Abstract(参考訳): Video Camouflaged Object Detection (VCOD) の領域は、対象物とその周囲のテクスチャの類似性や、物体とカメラの動きの両方によって生じる不規則な動きパターンによって、コンピュータビジョンの分野におけるユニークな課題を呈している。
本稿では,学習可能なトークン選択を用いて動作誘導特徴を抽出することによりVCODを強化するトランスフォーマーモデルを用いたTokenMotion(TMNet)を提案する。
挑戦的なMoCA-Maskデータセットに基づいて、TMNetはVCODの最先端のパフォーマンスを達成する。
12.8%の重み付きF尺度の改善、8.4%のS尺度の強化、平均IoUの10.7%のアップにより、既存の最先端手法よりも優れている。
本研究は,vcodの複雑な課題に取り組むために,トランスフォーマフレームワーク内で学習可能なトークン選択によるモーションガイド機能を活用することの利点を示す。
関連論文リスト
- Wandering around: A bioinspired approach to visual attention through object motion sensitivity [40.966228784674115]
アクティブビジョンは動的視覚認識を可能にし、コンピュータビジョンにおける静的フィードフォワードアーキテクチャの代替を提供する。
哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化を捉えてこの機能を強化する。
イベントベースのカメラが動いている間、移動物体を識別するためには、エージェントは物体の動きのセグメンテーション機構を必要とする。
本研究は、物体の運動感度を介して選択的注意を喚起するための、畳み込みニューラルネットワークバイオインスパイアされた注意システムを提案する。
論文 参考訳(メタデータ) (2025-02-10T18:16:30Z) - MONA: Moving Object Detection from Videos Shot by Dynamic Camera [20.190677328673836]
ダイナミックカメラで撮影されたビデオから、ロバストな移動物体の検出とセグメンテーションを行うためのフレームワークであるMONAを紹介する。
MonAは2つの重要なモジュールから構成される: 動的ポイント抽出(Dynamic Points extract)は光学フローを活用し、動的ポイントを識別するための任意のポイントを追跡する。
カメラ軌道推定手法LEAP-VOと統合してMONAを検証する。
論文 参考訳(メタデータ) (2025-01-22T19:30:28Z) - Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [33.62804888664707]
条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。
また、時間的自己注意層にシームレスに統合されるように設計された効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。
実験の結果,新しい手法はTrackAdapterによって強化され,FVD,FID,MCスコアなどの重要な指標における最先端のパフォーマンスが得られた。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。