論文の概要: Interpretable Action Recognition on Hard to Classify Actions
- arxiv url: http://arxiv.org/abs/2409.13091v1
- Date: Thu, 19 Sep 2024 21:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:03:17.498181
- Title: Interpretable Action Recognition on Hard to Classify Actions
- Title(参考訳): 行動の分類を困難にするための解釈可能な行動認識
- Authors: Anastasia Anichenko, Frank Guerin, Andrew Gilbert,
- Abstract要約: 人間は、明確に認識された物体と部分の間の批判的時間的関係を認識することによって、ビデオにおける複雑な活動を認識する。
これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。
このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。
オブジェクトの形状情報を既存のオブジェクトの特徴に統合するために,“Container”と“NotContainer”の違いを決定するために,最先端のオブジェクト検出モデルを微調整した。
- 参考スコア(独自算出の注目度): 11.641926922266347
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We investigate a human-like interpretable model of video understanding. Humans recognise complex activities in video by recognising critical spatio-temporal relations among explicitly recognised objects and parts, for example, an object entering the aperture of a container. To mimic this we build on a model which uses positions of objects and hands, and their motions, to recognise the activity taking place. To improve this model we focussed on three of the most confused classes (for this model) and identified that the lack of 3D information was the major problem. To address this we extended our basic model by adding 3D awareness in two ways: (1) A state-of-the-art object detection model was fine-tuned to determine the difference between "Container" and "NotContainer" in order to integrate object shape information into the existing object features. (2) A state-of-the-art depth estimation model was used to extract depth values for individual objects and calculate depth relations to expand the existing relations used our interpretable model. These 3D extensions to our basic model were evaluated on a subset of three superficially similar "Putting" actions from the Something-Something-v2 dataset. The results showed that the container detector did not improve performance, but the addition of depth relations made a significant improvement to performance.
- Abstract(参考訳): 映像理解の人間的な解釈モデルについて検討する。
人間は、明確に認識された物体や部品、例えば容器の開口部に入る物体の間の臨界時空間的関係を認識することによって、ビデオにおける複雑な活動を認識する。
これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。
このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。
現状のオブジェクト検出モデルでは,オブジェクトの形状情報を既存のオブジェクトの特徴に組み込むために,“コンテナ”と“コンテナ”の違いを判断するために,微調整を行った。
2) 最先端深度推定モデルを用いて, 個々の物体の深度値を抽出し, 深度関係を算出し, 解釈可能なモデルを用いた既存の関係を拡張した。
基本モデルに対するこれらの3次元拡張は、Something-v2データセットから得られた3つの「Putting」アクションのサブセットで評価された。
その結果, 容器検出器の性能は向上しなかったが, 深さ関係の付加により性能は著しく向上した。
関連論文リスト
- Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - I3DOD: Towards Incremental 3D Object Detection via Prompting [31.75287371048825]
本稿では,新たなインクリメンタル3Dオブジェクト検出フレームワークを提案する。
具体的には、オブジェクトの局所化情報とカテゴリの意味情報とのマッチング関係を学習するためのタスク共有プロンプト機構を提案する。
本手法は,mAP@0.25における最先端物体検出法を0.6%~2.7%向上させる。
論文 参考訳(メタデータ) (2023-08-24T02:54:38Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。