論文の概要: Zero-Shot Action Recognition from Diverse Object-Scene Compositions
- arxiv url: http://arxiv.org/abs/2110.13479v1
- Date: Tue, 26 Oct 2021 08:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 14:56:51.888481
- Title: Zero-Shot Action Recognition from Diverse Object-Scene Compositions
- Title(参考訳): 異種オブジェクトシーン構成からのゼロショット動作認識
- Authors: Carlo Bretti and Pascal Mettes
- Abstract要約: 本稿では,ゼロショット動作認識の問題点について考察する。
この挑戦的なシナリオのために、現在の主要なアプローチは、事前訓練されたネットワークを使用してビデオ内のオブジェクトを認識することによって、画像領域から知識を伝達することである。
オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。
個々のシーンは、オブジェクトよりも遠方にあるものの、目に見えないアクションを認識することができ、オブジェクトベースのスコアとシーンベースのスコアの直接的な組み合わせは、アクション認識を劣化させる。
- 参考スコア(独自算出の注目度): 15.942187254262091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the problem of zero-shot action recognition, in the
setting where no training videos with seen actions are available. For this
challenging scenario, the current leading approach is to transfer knowledge
from the image domain by recognizing objects in videos using pre-trained
networks, followed by a semantic matching between objects and actions. Where
objects provide a local view on the content in videos, in this work we also
seek to include a global view of the scene in which actions occur. We find that
scenes on their own are also capable of recognizing unseen actions, albeit more
marginally than objects, and a direct combination of object-based and
scene-based scores degrades the action recognition performance. To get the best
out of objects and scenes, we propose to construct them as a Cartesian product
of all possible compositions. We outline how to determine the likelihood of
object-scene compositions in videos, as well as a semantic matching from
object-scene compositions to actions that enforces diversity among the most
relevant compositions for each action. While simple, our composition-based
approach outperforms object-based approaches and even state-of-the-art
zero-shot approaches that rely on large-scale video datasets with hundreds of
seen actions for training and knowledge transfer.
- Abstract(参考訳): 本稿では,実写映像が存在しない場面において,ゼロショット動作認識の問題点について検討する。
この困難なシナリオのために、現在の主要なアプローチは、事前学習されたネットワークを使用してビデオ内のオブジェクトを認識し、オブジェクトとアクション間のセマンティックマッチングによって、画像ドメインから知識を転送することだ。
オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。
また,シーンの認識能力は物体よりも微妙に向上し,オブジェクトベースとシーンベースのスコアの直接的な組み合わせにより,動作認識性能が低下することが分かった。
オブジェクトとシーンから最高のものを得るため、我々はそれらを全ての可能な構成のデカルト積として構成することを提案する。
ビデオにおけるオブジェクトシーン構成の可能性の判定方法と、アクションごとに最も関連性の高い構成の多様性を強制するアクションへのオブジェクトシーン構成のセマンティックマッチングについて概説する。
私たちのコンポジションベースのアプローチはシンプルですが、オブジェクトベースのアプローチや、トレーニングや知識の転送に何百ものアクションを持つ大規模なビデオデータセットに依存する最先端のゼロショットアプローチよりも優れています。
関連論文リスト
- Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。