論文の概要: Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization
- arxiv url: http://arxiv.org/abs/2305.06114v1
- Date: Wed, 10 May 2023 13:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 13:12:24.047833
- Title: Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization
- Title(参考訳): 映像内および映像間情報の最大化によるアクション認識
- Authors: Huabin Liu, Weiyao Lin, Tieyuan Chen, Yuxi Li, Shuyuan Li, John See
- Abstract要約: 本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。
VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。
VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
- 参考スコア(独自算出の注目度): 28.31541961943443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current few-shot action recognition involves two primary sources of
information for classification:(1) intra-video information, determined by frame
content within a single video clip, and (2) inter-video information, measured
by relationships (e.g., feature similarity) among videos. However, existing
methods inadequately exploit these two information sources. In terms of
intra-video information, current sampling operations for input videos may omit
critical action information, reducing the utilization efficiency of video data.
For the inter-video information, the action misalignment among videos makes it
challenging to calculate precise relationships. Moreover, how to jointly
consider both inter- and intra-video information remains under-explored for
few-shot action recognition. To this end, we propose a novel framework, Video
Information Maximization (VIM), for few-shot video action recognition. VIM is
equipped with an adaptive spatial-temporal video sampler and a spatiotemporal
action alignment model to maximize intra- and inter-video information,
respectively. The video sampler adaptively selects important frames and
amplifies critical spatial regions for each input video based on the task at
hand. This preserves and emphasizes informative parts of video clips while
eliminating interference at the data level. The alignment model performs
temporal and spatial action alignment sequentially at the feature level,
leading to more precise measurements of inter-video similarity. Finally, These
goals are facilitated by incorporating additional loss terms based on mutual
information measurement. Consequently, VIM acts to maximize the distinctiveness
of video information from limited video data. Extensive experimental results on
public datasets for few-shot action recognition demonstrate the effectiveness
and benefits of our framework.
- Abstract(参考訳): 現在のマイノリティ・アクション認識には,1つのビデオクリップ内のフレーム内容によって決定されるビデオ内情報と,ビデオ間の関係(例えば特徴類似性)によって測定されるビデオ間情報という2つの主要な情報が含まれている。
しかし、既存の方法はこれら2つの情報源を不適切に活用している。
ビデオ内情報に関しては、現在の入力ビデオのサンプリング操作はクリティカルアクション情報を省略し、ビデオデータの利用効率を低下させる可能性がある。
映像間情報では,映像間の動作ミスアレーメントにより,正確な関係の計算が困難となる。
さらに、ビデオ間情報と動画内情報の両方を共同検討する方法は、わずかなアクション認識では未検討のままである。
そこで本研究では,ビデオアクション認識のための新しい枠組みであるvim(video information maximization)を提案する。
VIMは、適応的な時空間ビデオサンプリング器と時空間動作アライメントモデルを備え、映像内および映像間情報を最大化する。
ビデオサンプリング装置は、重要なフレームを適応的に選択し、そのタスクに基づいて、入力ビデオ毎に重要な空間領域を増幅する。
これは、データレベルでの干渉を排除しながら、ビデオクリップの情報的部分を保存し、強調する。
アライメントモデルは、時間的および空間的行動アライメントを特徴レベルで順次実行し、ビデオ間の類似性をより正確に測定する。
最後に、これらの目的は、相互情報測定に基づく損失項を付加することにより促進される。
これにより、VIMは、限られた映像データからの映像情報の識別性を最大化する。
限定的行動認識のための公開データセットの広範な実験結果から,このフレームワークの有効性とメリットが証明された。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。
1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-27T10:09:17Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - A gaze driven fast-forward method for first-person videos [2.362412515574206]
我々は、入力ビデオの高速化版を作成し、重要な瞬間をレコーダーに強調することにより、ファースト・パーソン・ビデオにおける関連情報へのアクセスの問題に対処する。
本手法は,映像の各フレームのセマンティックスコアを提供する,視線と視覚的シーン分析によって駆動される注目モデルに基づく。
論文 参考訳(メタデータ) (2020-06-10T00:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。