論文の概要: Query by Activity Video in the Wild
- arxiv url: http://arxiv.org/abs/2311.13895v1
- Date: Thu, 23 Nov 2023 10:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:06:42.551973
- Title: Query by Activity Video in the Wild
- Title(参考訳): 野生でのアクティビティビデオによるクエリ
- Authors: Tao Hu, William Thong, Pascal Mettes, Cees G.M. Snoek
- Abstract要約: 現在のクェリ・バイ・アクティビティ・ビデオの文献では、埋め込みを学ぶ際に、すべてのアクティビティが十分なラベル付き例を持っているという仮定が一般的である。
本稿では,アクティビティ検索における不均衡なシナリオを明示的に扱う視覚意味埋め込みネットワークを提案する。
- 参考スコア(独自算出の注目度): 52.42177539947216
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper focuses on activity retrieval from a video query in an imbalanced
scenario. In current query-by-activity-video literature, a common assumption is
that all activities have sufficient labelled examples when learning an
embedding. This assumption does however practically not hold, as only a portion
of activities have many examples, while other activities are only described by
few examples. In this paper, we propose a visual-semantic embedding network
that explicitly deals with the imbalanced scenario for activity retrieval. Our
network contains two novel modules. The visual alignment module performs a
global alignment between the input video and fixed-sized visual bank
representations for all activities. The semantic module performs an alignment
between the input video and fixed-sized semantic activity representations. By
matching videos with both visual and semantic activity representations that are
of equal size over all activities, we no longer ignore infrequent activities
during retrieval. Experiments on a new imbalanced activity retrieval benchmark
show the effectiveness of our approach for all types of activities.
- Abstract(参考訳): 本稿では,不均衡シナリオにおけるビデオクエリからのアクティビティ検索に着目した。
現在のクェリ・バイ・アクティビティ・ビデオの文献では、埋め込みを学ぶ際に全てのアクティビティに十分なラベル付き例があるという仮定が一般的である。
しかし、この仮定は実際には成立せず、一部の活動には多くの例があるが、他の活動は少数の例によってのみ記述される。
本稿では,アクティビティ検索における不均衡シナリオを明示的に扱う視覚意味埋め込みネットワークを提案する。
私たちのネットワークには2つの新しいモジュールがあります。
視覚アライメントモジュールは、すべてのアクティビティに対して、入力ビデオと固定サイズの視覚バンク表現のグローバルアライメントを実行する。
セマンティックモジュールは、入力ビデオと固定サイズのセマンティックアクティビティ表現のアライメントを実行する。
すべてのアクティビティに対して同じ大きさの視覚的および意味的なアクティビティ表現とマッチングすることにより、検索中の頻繁なアクティビティを無視することが可能になる。
新たな不均衡アクティビティ検索ベンチマーク実験では,あらゆるタイプのアクティビティに対するアプローチの有効性が示された。
関連論文リスト
- Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Multi-Label Activity Recognition using Activity-specific Features and
Activity Correlations [15.356959177480965]
本稿では,各アクティビティの独立な特徴記述子を抽出し,アクティビティ相関を学習するマルチラベルアクティビティ認識手法を提案する。
提案手法は,4つの多ラベル活動認識データセットにおける最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-09-16T01:57:34Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。