論文の概要: Therbligs in Action: Video Understanding through Motion Primitives
- arxiv url: http://arxiv.org/abs/2304.03631v1
- Date: Thu, 6 Apr 2023 17:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-10 11:55:09.686738
- Title: Therbligs in Action: Video Understanding through Motion Primitives
- Title(参考訳): Therbligs in Action:Motion Primitivesによるビデオ理解
- Authors: Eadom Dessalene, Michael Maynord, Cornelia Fermuller, Yiannis
Aloimonos
- Abstract要約: Therbligsを原子として用いた規則に基づく、構成的、階層的なアクションモデリングを導入する。
2つの人気のあるビデオデータセット上で、最初のTherblig中心のアノテーションをリリースします。
- 参考スコア(独自算出の注目度): 8.957306103664138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce a rule-based, compositional, and hierarchical
modeling of action using Therbligs as our atoms. Introducing these atoms
provides us with a consistent, expressive, contact-centered representation of
action. Over the atoms we introduce a differentiable method of rule-based
reasoning to regularize for logical consistency. Our approach is complementary
to other approaches in that the Therblig-based representations produced by our
architecture augment rather than replace existing architectures'
representations. We release the first Therblig-centered annotations over two
popular video datasets - EPIC Kitchens 100 and 50-Salads. We also broadly
demonstrate benefits to adopting Therblig representations through evaluation on
the following tasks: action segmentation, action anticipation, and action
recognition - observing an average 10.5\%/7.53\%/6.5\% relative improvement,
respectively, over EPIC Kitchens and an average 8.9\%/6.63\%/4.8\% relative
improvement, respectively, over 50 Salads. Code and data will be made publicly
available.
- Abstract(参考訳): 本稿では,シリグスを原子として用いた行動の規則的,構成的,階層的モデリングを提案する。
これらの原子の導入は、一貫した、表現力のある、接触中心の行動表現を提供する。
原子上では、論理的一貫性のために規則に基づく推論の微分可能な方法を導入します。
私たちのアプローチは、既存のアーキテクチャの表現を置き換えるのではなく、アーキテクチャの強化によって生成されるTherbligベースの表現を補完するものです。
Therblig中心のアノテーションは、EPIC Kitchens 100と50-Saladsという2つの一般的なビデオデータセットに初めてリリースします。
また, アクションセグメンテーション, アクション予測, アクション認識の3つのタスクにおいて, 平均10.5\%/7.53\%/6.5\%の相対的改善をEPICキッチンで, 平均8.9\%/6.63\%/4.8\%の相対的改善をそれぞれ50サラダで行った。
コードとデータは公開される予定だ。
関連論文リスト
- Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - Task Graph Maximum Likelihood Estimation for Procedural Activity Understanding in Egocentric Videos [13.99137623722021]
手続き的活動からタスクグラフを学習するための勾配に基づくアプローチ
我々は,CaptainCook4D,EgoPER,EgoProceLに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-25T01:13:09Z) - ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition [5.253376886484742]
本稿では,カメラトラップ映像から直接抽出した視覚特徴のマルチモーダルデコードを利用する視覚言語モデルを提案する。
我々はPanAf500とPanAf20Kのデータセットを用いてシステムを評価する。
トップ1の精度で視覚モデルと視覚言語モデルに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-13T09:17:51Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - ActionFormer: Localizing Moments of Actions with Transformers [34.1448940256826]
自己アテンションに基づくトランスフォーマーモデルでは,画像分類や物体検出に顕著な結果が得られた。
我々は、時間内のアクションを識別し、カテゴリを単一のショットで認識するモデルであるActionFormerを紹介します。
THUMOS14では, tIoU=0.5で65.6%のmAPを達成し, 8.7絶対パーセンテージで最高の先行モデルを上回った。
論文 参考訳(メタデータ) (2022-02-16T08:34:11Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Skeleton-Split Framework using Spatial Temporal Graph Convolutional
Networks for Action Recogntion [2.132096006921048]
本研究の目的は,ST-GCNモデルを用いた日常生活活動の認識である。
接続分割分割手法を用いて,48.88 %トップ1の精度を実現した。
インデックス分割分割戦略を用いて、73.25 %トップ-1の精度を実現する。
論文 参考訳(メタデータ) (2021-11-04T18:59:02Z) - Cross-media Structured Common Space for Multimedia Event Extraction [82.36301617438268]
マルチメディア文書からイベントとその引数を抽出することを目的とした,MultiMedia Event extract (M2E2) というタスクを導入する。
本稿では,意味情報の構造化表現を共通埋め込み空間にエンコードする新しい手法,Weakly Aligned Structured Embedding (WASE)を提案する。
画像を利用することで、従来のテキストのみの手法よりも21.4%多くのイベント参照を抽出する。
論文 参考訳(メタデータ) (2020-05-05T20:21:53Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。