論文の概要: RareAct: A video dataset of unusual interactions
- arxiv url: http://arxiv.org/abs/2008.01018v1
- Date: Mon, 3 Aug 2020 16:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:40:47.319585
- Title: RareAct: A video dataset of unusual interactions
- Title(参考訳): RareAct: 異常なインタラクションのビデオデータセット
- Authors: Antoine Miech, Jean-Baptiste Alayrac, Ivan Laptev, Josef Sivic, Andrew
Zisserman
- Abstract要約: RareActは、共通のアクション動詞とオブジェクト名詞の不可避な合成に対して、アクション認識モデルのゼロショットと少数ショットの構成性を評価することを目的としている。
動詞と名詞を組み合わせることで得られる122の異なる行動を含む。
我々は、最先端のHowTo100M事前訓練ビデオとテキストモデルを用いてベンチマークを行い、ゼロショットと少数ショットのアクションの合成性が困難な課題であり、未解決の課題であることを示す。
- 参考スコア(独自算出の注目度): 118.60208959258752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a manually annotated video dataset of unusual actions,
namely RareAct, including actions such as "blend phone", "cut keyboard" and
"microwave shoes". RareAct aims at evaluating the zero-shot and few-shot
compositionality of action recognition models for unlikely compositions of
common action verbs and object nouns. It contains 122 different actions which
were obtained by combining verbs and nouns rarely co-occurring together in the
large-scale textual corpus from HowTo100M, but that frequently appear
separately. We provide benchmarks using a state-of-the-art HowTo100M pretrained
video and text model and show that zero-shot and few-shot compositionality of
actions remains a challenging and unsolved task.
- Abstract(参考訳): 本稿では,手動でアノテートされたビデオデータセット,すなわちRareActについて紹介し,その中に「ブロンドフォン」「カットキーボード」「マイクロ波シューズ」などのアクションが含まれる。
rareactは、アクション認識モデルのゼロショットおよびマイショット合成性を評価することを目的としている。
howto100mの大規模テキストコーパスでは、動詞と名詞を組み合わせることで得られる122の異なるアクションが含まれているが、しばしば別々に現れる。
我々は、最先端のHowTo100M事前訓練ビデオとテキストモデルを用いてベンチマークを行い、ゼロショットと少数ショットのアクションの合成性が困難な課題であり、未解決の課題であることを示す。
関連論文リスト
- Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Zero-Shot Action Recognition from Diverse Object-Scene Compositions [15.942187254262091]
本稿では,ゼロショット動作認識の問題点について考察する。
この挑戦的なシナリオのために、現在の主要なアプローチは、事前訓練されたネットワークを使用してビデオ内のオブジェクトを認識することによって、画像領域から知識を伝達することである。
オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。
個々のシーンは、オブジェクトよりも遠方にあるものの、目に見えないアクションを認識することができ、オブジェクトベースのスコアとシーンベースのスコアの直接的な組み合わせは、アクション認識を劣化させる。
論文 参考訳(メタデータ) (2021-10-26T08:23:14Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。