論文の概要: What can a cook in Italy teach a mechanic in India? Action Recognition
Generalisation Over Scenarios and Locations
- arxiv url: http://arxiv.org/abs/2306.08713v1
- Date: Wed, 14 Jun 2023 19:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:32:46.716922
- Title: What can a cook in Italy teach a mechanic in India? Action Recognition
Generalisation Over Scenarios and Locations
- Title(参考訳): イタリアの料理人はインドで機械工学を学べますか。
シナリオと場所に関する行動認識の一般化
- Authors: Chiara Plizzari, Toby Perrett, Barbara Caputo, Dima Damen
- Abstract要約: 本稿では,シナリオとロケーションデータセット(ARGO1M)について紹介する。
認識モデルは、10以上の提案されたテスト分割を一般化するのに苦労し、各シナリオは目に見えない場所にある。
本稿では,他のドメインからの動画のクロスインスタンス再構成として,各ビデオの表現方法であるCIRを提案する。
- 参考スコア(独自算出の注目度): 44.18010637875961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and address a new generalisation problem: can a model trained for
action recognition successfully classify actions when they are performed within
a previously unseen scenario and in a previously unseen location? To answer
this question, we introduce the Action Recognition Generalisation Over
scenarios and locations dataset (ARGO1M), which contains 1.1M video clips from
the large-scale Ego4D dataset, across 10 scenarios and 13 locations. We
demonstrate recognition models struggle to generalise over 10 proposed test
splits, each of an unseen scenario in an unseen location. We thus propose CIR,
a method to represent each video as a Cross-Instance Reconstruction of videos
from other domains. Reconstructions are paired with text narrations to guide
the learning of a domain generalisable representation. We provide extensive
analysis and ablations on ARGO1M that show CIR outperforms prior domain
generalisation works on all test splits. Code and data:
https://chiaraplizz.github.io/what-can-a-cook/.
- Abstract(参考訳): 行動認識のために訓練されたモデルは、これまで見つからなかったシナリオや、これまで見つからなかった場所で実行されたアクションをうまく分類できるだろうか?
この質問に答えるために、大規模ego4dデータセットからの1.1mのビデオクリップを含む、シナリオとロケーションデータセット(argo1m)に対するアクション認識の一般化を紹介する。
認識モデルは、10以上の提案されたテスト分割を一般化するのに苦労し、各シナリオは目に見えない場所にある。
そこで我々は,他のドメインからの動画のクロスインスタンス再構成として,各ビデオを表現するCIRを提案する。
レコンストラクションはテキストナレーションと組み合わせて、ドメインの一般化可能な表現の学習を導く。
我々は、CIRが全てのテスト分割に先立つ領域一般化よりも優れていることを示すARGO1Mに関する広範な分析と改善を提供する。
コードとデータ: https://chiaraplizz.github.io/what-can-a-cook/
関連論文リスト
- ReferEverything: Towards Segmenting Everything We Can Speak of in Videos [42.88584315033116]
本稿では、自然言語で記述可能なビデオのセグメンテーションフレームワークREMを提案する。
提案手法は,インターネット規模のデータセット上での映像拡散モデルから学習した視覚表現に重きを置いている。
論文 参考訳(メタデータ) (2024-10-30T17:59:26Z) - Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Bringing Generalization to Deep Multi-view Detection [5.753786926820733]
マルチビュー検出(MVD)は、様々なアプリケーションにおいて、正確なトップビュー占有率マップを必要とする主要なソリューションである。
本稿では,既存の最先端フレームワークに対する事前学習,プーリング戦略,正規化,損失関数の修正を提案する。
我々は、一般化能力に関するMVD法を評価する必要性を動機付けるために、ワイルドトラックとマルチビューックスデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-09-24T23:02:27Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。