論文の概要: Few-Shot Transformation of Common Actions into Time and Space
- arxiv url: http://arxiv.org/abs/2104.02439v1
- Date: Tue, 6 Apr 2021 11:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:05:26.354350
- Title: Few-Shot Transformation of Common Actions into Time and Space
- Title(参考訳): 共通動作の時間と空間への少数ショット変換
- Authors: Pengwan Yang and Pascal Mettes and Cees G. M. Snoek
- Abstract要約: 共通性共同学習とローカリゼーション予測のために最適化された専用のエンコーダデコーダ構造を備えた数ショットトランスフォーマーアーキテクチャを紹介します。
AVAとUCF101-24データセットの再編成実験は、我々のアプローチの有効性を示している。
- 参考スコア(独自算出の注目度): 46.89305224263658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the task of few-shot common action localization in time
and space. Given a few trimmed support videos containing the same but unknown
action, we strive for spatio-temporal localization of that action in a long
untrimmed query video. We do not require any class labels, interval bounds, or
bounding boxes. To address this challenging task, we introduce a novel few-shot
transformer architecture with a dedicated encoder-decoder structure optimized
for joint commonality learning and localization prediction, without the need
for proposals. Experiments on our reorganizations of the AVA and UCF101-24
datasets show the effectiveness of our approach for few-shot common action
localization, even when the support videos are noisy. Although we are not
specifically designed for common localization in time only, we also compare
favorably against the few-shot and one-shot state-of-the-art in this setting.
Lastly, we demonstrate that the few-shot transformer is easily extended to
common action localization per pixel.
- Abstract(参考訳): 本稿では,時間と空間における共有行動の局所化の課題を紹介する。
同一だが未知のアクションを含むいくつかのトリミングされたサポートビデオを考えると、長い未トリミングクエリビデオにおいて、そのアクションの時空間的ローカライズを試みる。
クラスラベル、インターバルバウンダリ、バウンダリボックスは一切必要ありません。
この課題に対処するため,提案を必要とせず,共用性学習と局所化予測に最適化された専用エンコーダ・デコーダ構造を持つ,新しいマイナショットトランスフォーマアーキテクチャを提案する。
AVAデータセットとUCF101-24データセットの再編成実験は、サポートビデオが騒々しい場合でも、数発の共通アクションローカライゼーションに対するアプローチの有効性を示す。
私たちは、時間的に共通なローカライズのために特別に設計されているわけではないが、この設定でのマイナショットとワンショットのステート・オブ・ザ・アートとの比較も好適である。
最後に,極小トランスフォーマはピクセル毎の共通動作局所化に容易に拡張できることを実証する。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。