論文の概要: Fine-grained activity recognition for assembly videos
- arxiv url: http://arxiv.org/abs/2012.01392v1
- Date: Wed, 2 Dec 2020 18:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:56:28.290489
- Title: Fine-grained activity recognition for assembly videos
- Title(参考訳): 組立映像におけるきめ細かい活動認識
- Authors: Jonathan D. Jones, Cathryn Cortesa, Amy Shelton, Barbara Landau,
Sanjeev Khudanpur, and Gregory D. Hager
- Abstract要約: 本研究は, 組立動作認識の課題に対処するために, きめ細かいアクティビティ認識設定を拡張した。
本研究では,空間集合の特別な構造を活かした観察特徴とともに,観測シーケンスからアセンブリ動作を認識する汎用的な手法を開発した。
- 参考スコア(独自算出の注目度): 31.468641678626696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we address the task of recognizing assembly actions as a
structure (e.g. a piece of furniture or a toy block tower) is built up from a
set of primitive objects. Recognizing the full range of assembly actions
requires perception at a level of spatial detail that has not been attempted in
the action recognition literature to date. We extend the fine-grained activity
recognition setting to address the task of assembly action recognition in its
full generality by unifying assembly actions and kinematic structures within a
single framework. We use this framework to develop a general method for
recognizing assembly actions from observation sequences, along with observation
features that take advantage of a spatial assembly's special structure.
Finally, we evaluate our method empirically on two application-driven data
sources: (1) An IKEA furniture-assembly dataset, and (2) A block-building
dataset. On the first, our system recognizes assembly actions with an average
framewise accuracy of 70% and an average normalized edit distance of 10%. On
the second, which requires fine-grained geometric reasoning to distinguish
between assemblies, our system attains an average normalized edit distance of
23% -- a relative improvement of 69% over prior work.
- Abstract(参考訳): 本稿では,アセンブリ動作を構造(例)として認識するタスクに対処する。
家具またはおもちゃのブロックタワーは、原始的なオブジェクトのセットから構築されています。
集団行動の全範囲を認識するには、現在まで行動認識文献で試みられていない空間的詳細レベルでの認識が必要である。
組立動作と運動構造を単一のフレームワーク内で統一することにより、組立動作認識のタスクを完全な汎用性で解決するために、きめ細かいアクティビティ認識設定を拡張する。
我々は,この枠組みを用いて,空間集合の特別な構造を生かした観察特徴とともに,観測シーケンスからアセンブリ動作を認識する一般的な手法を開発した。
最後に,本手法を,(1)IKEA家具組立データセット,(2)ブロック構築データセットの2つのデータソース上で実証的に評価した。
第1に,本システムでは,フレーム単位の平均精度が70%,正規化編集距離が10%の組立動作を認識する。
第2に, 集合を識別するために粒度の細かい幾何学的推論を必要とする場合, 平均正規化編集距離は23%であり, 従来の作業に比べて相対的に69%向上する。
関連論文リスト
- Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - ASDF: Assembly State Detection Utilizing Late Fusion by Integrating 6D Pose Estimation [5.117781843071097]
医療・産業分野では、効率と安全性を確保するために、組み立てプロセスのガイダンスを提供することが重要である。
その場でのビジュアライゼーションを可能にするため、6次元のポーズ推定を利用して、拡張の正確な位置を特定することができる。
我々は,リアルタイム能動オブジェクト検出フレームワークであるYOLOv8の長所の上に構築し,アセンブリ状態検出と組み合わせて6次元ポーズ推定の課題に対処する。
論文 参考訳(メタデータ) (2024-03-25T03:30:37Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Interactive Fusion of Multi-level Features for Compositional Activity
Recognition [100.75045558068874]
インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-10T14:17:18Z) - SAFCAR: Structured Attention Fusion for Compositional Action Recognition [47.43959215267547]
我々は,物体検出からの情報を組み合わせた新しい自己注意機構(Structured Attention Fusion, SAF)を開発し, 検証する。
提案手法は, 従来の技術システムよりも, 新規な動詞合成を効果的に認識するものである。
我々は,Something-V2データセットの課題であるSomesing-Elseタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-12-03T17:45:01Z) - Object-Driven Active Mapping for More Accurate Object Pose Estimation
and Robotic Grasping [5.385583891213281]
このフレームワークは、オブジェクトSLAMシステム上に構築され、同時多目的ポーズ推定プロセスと統合される。
マッピングモジュールと探索戦略を組み合わせることにより、ロボットの把握と互換性のある正確なオブジェクトマップを生成することができる。
論文 参考訳(メタデータ) (2020-12-03T09:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。