論文の概要: Object Priors for Classifying and Localizing Unseen Actions
- arxiv url: http://arxiv.org/abs/2104.04715v1
- Date: Sat, 10 Apr 2021 08:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:16:19.002661
- Title: Object Priors for Classifying and Localizing Unseen Actions
- Title(参考訳): 未知の動作の分類と局所化のためのオブジェクト優先
- Authors: Pascal Mettes, William Thong, Cees G. M. Snoek
- Abstract要約: 本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。
上述の3つのセマンティックオブジェクトプリエントを導入し、単語の埋め込みを通じてセマンティックマッチングを拡張する。
ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
- 参考スコア(独自算出の注目度): 45.91275361696107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work strives for the classification and localization of human actions in
videos, without the need for any labeled video training examples. Where
existing work relies on transferring global attribute or object information
from seen to unseen action videos, we seek to classify and spatio-temporally
localize unseen actions in videos from image-based object information only. We
propose three spatial object priors, which encode local person and object
detectors along with their spatial relations. On top we introduce three
semantic object priors, which extend semantic matching through word embeddings
with three simple functions that tackle semantic ambiguity, object
discrimination, and object naming. A video embedding combines the spatial and
semantic object priors. It enables us to introduce a new video retrieval task
that retrieves action tubes in video collections based on user-specified
objects, spatial relations, and object size. Experimental evaluation on five
action datasets shows the importance of spatial and semantic object priors for
unseen actions. We find that persons and objects have preferred spatial
relations that benefit unseen action localization, while using multiple
languages and simple object filtering directly improves semantic matching,
leading to state-of-the-art results for both unseen action classification and
localization.
- Abstract(参考訳): この研究は、ラベル付きビデオトレーニングの例を必要とせずに、ビデオ内の人間の行動の分類とローカライズに努めている。
既存の作業がグローバル属性やオブジェクト情報を目に見えないアクションビデオに転送することに依存している場合、画像ベースのオブジェクト情報のみから、未認識のアクションを分類し、時空間的にローカライズすることを目指している。
本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。
上述の3つのセマンティックオブジェクト先行処理は、単語埋め込みによるセマンティックマッチングを拡張し、セマンティックなあいまいさ、オブジェクトの識別、オブジェクトの命名に対処する3つの単純な機能を持つ。
ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
ユーザが指定したオブジェクト、空間関係、およびオブジェクトサイズに基づいて、ビデオコレクション内のアクションチューブを検索する新しいビデオ検索タスクを導入することができる。
5つのアクションデータセットの実験的評価は、未知のアクションに対する空間的および意味的オブジェクト優先の重要性を示している。
複数の言語と単純なオブジェクトフィルタリングを使用することで、意味マッチングが直接改善される一方で、人間とオブジェクトは、未認識のアクションのローカライゼーションとローカライゼーションの両方において最先端の結果をもたらす。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。