論文の概要: Otter: Mitigating Background Distractions of Wide-Angle Few-Shot Action Recognition with Enhanced RWKV
- arxiv url: http://arxiv.org/abs/2511.06741v1
- Date: Mon, 10 Nov 2025 06:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.099461
- Title: Otter: Mitigating Background Distractions of Wide-Angle Few-Shot Action Recognition with Enhanced RWKV
- Title(参考訳): Otter: 拡張RWKVを用いた広角Few-Shot動作認識の背景歪みの軽減
- Authors: Wenbo Huang, Jinghui Zhang, Zhenghao Chen, Guang Li, Lei Zhang, Yang Cao, Fang Dong, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: 我々は,各フレームのキーパッチを強調する広角動作認識システムを開発し,背景情報に対する被験者の強調を効果的に行う。
通常の試作機は時間的強調と時間的モデリングを同時に強化し、広角FSARの性能を向上させるため、時間的強化された試作機と組み合わせられる。
- 参考スコア(独自算出の注目度): 42.36311246633652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wide-angle videos in few-shot action recognition (FSAR) effectively express actions within specific scenarios. However, without a global understanding of both subjects and background, recognizing actions in such samples remains challenging because of the background distractions. Receptance Weighted Key Value (RWKV), which learns interaction between various dimensions, shows promise for global modeling. While directly applying RWKV to wide-angle FSAR may fail to highlight subjects due to excessive background information. Additionally, temporal relation degraded by frames with similar backgrounds is difficult to reconstruct, further impacting performance. Therefore, we design the CompOund SegmenTation and Temporal REconstructing RWKV (Otter). Specifically, the Compound Segmentation Module~(CSM) is devised to segment and emphasize key patches in each frame, effectively highlighting subjects against background information. The Temporal Reconstruction Module (TRM) is incorporated into the temporal-enhanced prototype construction to enable bidirectional scanning, allowing better reconstruct temporal relation. Furthermore, a regular prototype is combined with the temporal-enhanced prototype to simultaneously enhance subject emphasis and temporal modeling, improving wide-angle FSAR performance. Extensive experiments on benchmarks such as SSv2, Kinetics, UCF101, and HMDB51 demonstrate that Otter achieves state-of-the-art performance. Extra evaluation on the VideoBadminton dataset further validates the superiority of Otter in wide-angle FSAR.
- Abstract(参考訳): ショートショットアクション認識(FSAR)における広角ビデオは、特定のシナリオ内でのアクションを効果的に表現する。
しかし, 被験者と背景のグローバルな理解が得られず, 背景の混乱が原因で, 被験者の行動の認識が困難なままである。
様々な次元間の相互作用を学習するRWKV(Receptance Weighted Key Value)は、グローバルモデリングを約束する。
RWKVを広角FSARに直接適用しても、過剰な背景情報のために被写体を強調できない場合がある。
さらに、類似した背景を持つフレームによって劣化した時間的関係を再構築することは困難であり、さらに性能に影響を及ぼす。
そこで我々はCompOund SegmenTation と Temporal Reconstructing RWKV (Otter) を設計した。
特に、複合セグメンテーションモジュール~(CSM)は、各フレームのキーパッチをセグメンテーションし、強調するために考案され、背景情報に対して効果的に被写体をハイライトする。
テンポラルリコンストラクションモジュール(TRM)は、双方向走査を可能にするため、時間的拡張されたプロトタイプ構築に組み込まれ、時間的関係をよりよく再構築することができる。
さらに、通常のプロトタイプと時間的強調と時間的モデリングを同時に強化し、広角FSARの性能を向上させるために、時間的拡張プロトタイプが組み合わされる。
SSv2、Kineetics、UCF101、HMDB51といったベンチマークの大規模な実験は、Otterが最先端のパフォーマンスを達成することを示した。
VideoBadmintonデータセットの余剰評価は、広角FSARにおけるOtterの優位性をさらに検証する。
関連論文リスト
- HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - Exploring Fourier Prior and Event Collaboration for Low-Light Image Enhancement [1.8724535169356553]
イベントカメラは低照度画像強調のための性能向上を提供する。
現在、既存のイベントベースのメソッドは、フレームとイベントを直接単一のモデルにフィードする。
本稿では,振幅-位相絡み付き可視性回復ネットワークを提案する。
第2段階では、空間的ミスマッチを軽減するために、動的アライメントを伴う融合戦略を提案する。
論文 参考訳(メタデータ) (2025-08-01T04:25:00Z) - Joint Depth and Reflectivity Estimation using Single-Photon LiDAR [9.842115005951651]
高精度3Dビジョンタスクの先駆技術として,シングルフォト光検出・照準技術 (SP-LiDAR) が登場している。
タイムスタンプは、パルス走行時間(深度)と、物体によって反射される光子の数(反射率)の2つの相補的な情報を符号化する
論文 参考訳(メタデータ) (2025-05-19T15:33:28Z) - AttentiveGRU: Recurrent Spatio-Temporal Modeling for Advanced Radar-Based BEV Object Detection [5.5967570276373655]
鳥眼視(Bird's-eye view, BEV)は、先進的な3Dレーダーによる知覚システムにおいて重要である。
本稿では,アテンラプティブ(AttenRUtive)について紹介する。
論文 参考訳(メタデータ) (2025-04-01T09:10:47Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Exploiting Spatial-Temporal Context for Interacting Hand Reconstruction
on Monocular RGB Video [104.69686024776396]
モノラルなRGBデータからインタラクションハンドを再構築することは、多くの干渉要因が伴うため、難しい作業である。
これまでの作業は、物理的に妥当な関係をモデル化することなく、単一のRGBイメージからの情報のみを活用する。
本研究は, 空間的時間的情報を明示的に活用し, より優れた対話的手指再建を実現することを目的としている。
論文 参考訳(メタデータ) (2023-08-08T06:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。