論文の概要: Inferring Temporal Compositions of Actions Using Probabilistic Automata
- arxiv url: http://arxiv.org/abs/2004.13217v1
- Date: Tue, 28 Apr 2020 00:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:18:59.925715
- Title: Inferring Temporal Compositions of Actions Using Probabilistic Automata
- Title(参考訳): 確率的オートマタを用いた行動の時間成分推定
- Authors: Rodrigo Santa Cruz, Anoop Cherian, Basura Fernando, Dylan Campbell,
and Stephen Gould
- Abstract要約: 本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
- 参考スコア(独自算出の注目度): 61.09176771931052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework to recognize temporal compositions of atomic
actions in videos. Specifically, we propose to express temporal compositions of
actions as semantic regular expressions and derive an inference framework using
probabilistic automata to recognize complex actions as satisfying these
expressions on the input video features. Our approach is different from
existing works that either predict long-range complex activities as unordered
sets of atomic actions, or retrieve videos using natural language sentences.
Instead, the proposed approach allows recognizing complex fine-grained
activities using only pretrained action classifiers, without requiring any
additional data, annotations or neural network training. To evaluate the
potential of our approach, we provide experiments on synthetic datasets and
challenging real action recognition datasets, such as MultiTHUMOS and Charades.
We conclude that the proposed approach can extend state-of-the-art primitive
action classifiers to vastly more complex activities without large performance
degradation.
- Abstract(参考訳): 本稿では,映像中の原子活動の時間的構成を認識する枠組みを提案する。
具体的には,動作の時間的構成を意味的正規表現として表現し,確率的オートマトンを用いた推論フレームワークを導出し,入力映像特徴のこれらの表現を満足する複雑な動作を認識することを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得する既存の作業とは異なる。
その代わり、提案されたアプローチでは、事前訓練されたアクション分類器のみを使用して、追加のデータやアノテーション、ニューラルネットワークトレーニングを必要とせずに、複雑なきめ細かいアクティビティを認識できる。
提案手法の有効性を評価するため,合成データセットの実験を行い,MultiTHUMOSやCharadesといった実行動認識データセットに挑戦する。
提案手法は,最先端のプリミティブアクション分類器を,大幅なパフォーマンス劣化を伴わずに非常に複雑なアクティビティに拡張できる。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Activity Grammars for Temporal Action Segmentation [71.03141719666972]
時間的アクションセグメンテーションは、トリミングされていないアクティビティビデオを一連のアクションセグメンテーションに変換することを目的としている。
本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を提案する。
実験の結果,提案手法は時間的動作のセグメンテーションを性能と解釈性の両方の観点から著しく改善することが示された。
論文 参考訳(メタデータ) (2023-12-07T12:45:33Z) - A Grammatical Compositional Model for Video Action Detection [24.546886938243393]
典型的なAnd-Orグラフに基づく行動検出のための新しい文法合成モデル(GCM)を提案する。
本モデルは,文法モデルの構成性とDNNのリッチな特徴を表現する能力の両面を活用するために,階層的な動作の固有構造と潜時的関係を利用する。
論文 参考訳(メタデータ) (2023-10-04T15:24:00Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z) - Active Learning in Video Tracking [8.782204980889079]
本稿では,マッチング可能な構造化予測領域を用いた能動学習のための対角的アプローチを提案する。
我々は,この手法をビデオ中の物体追跡という,重要な構造化された予測問題においてアルゴリズム的に評価する。
論文 参考訳(メタデータ) (2019-12-29T00:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。