論文の概要: The Object at Hand: Automated Editing for Mixed Reality Video Guidance
from Hand-Object Interactions
- arxiv url: http://arxiv.org/abs/2109.14744v1
- Date: Wed, 29 Sep 2021 22:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:52:50.268603
- Title: The Object at Hand: Automated Editing for Mixed Reality Video Guidance
from Hand-Object Interactions
- Title(参考訳): 手持ち物体:手持ち操作による複合現実映像誘導のための自動編集
- Authors: Yao Lu, Walterio W. Mayol-Cuevas
- Abstract要約: 我々は、エゴセントリックなビジョンを用いて、現実世界のタスクにおける手動物体の相互作用を観察し、その構成ステップに自動的にビデオを分解する。
本手法では,手動オブジェクト間相互作用(HOI)検出,オブジェクト類似度測定,有限状態マシン(FSM)表現を組み合わせて,動画の自動編集を行う。
- 参考スコア(独自算出の注目度): 24.68535915849555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we concern with the problem of how to automatically extract
the steps that compose real-life hand activities. This is a key competence
towards processing, monitoring and providing video guidance in Mixed Reality
systems. We use egocentric vision to observe hand-object interactions in
real-world tasks and automatically decompose a video into its constituent
steps. Our approach combines hand-object interaction (HOI) detection, object
similarity measurement and a finite state machine (FSM) representation to
automatically edit videos into steps. We use a combination of Convolutional
Neural Networks (CNNs) and the FSM to discover, edit cuts and merge segments
while observing real hand activities. We evaluate quantitatively and
qualitatively our algorithm on two datasets: the GTEA\cite{li2015delving}, and
a new dataset we introduce for Chinese Tea making. Results show our method is
able to segment hand-object interaction videos into key step segments with high
levels of precision.
- Abstract(参考訳): 本稿では,実生活のハンドアクティビティを構成するステップを自動的に抽出する方法について考察する。
これは、複合現実システムにおけるビデオガイダンスの処理、監視、提供のための重要な能力である。
egocentric visionを使って、現実世界のタスクで手とオブジェクトのインタラクションを観察し、ビデオを自動的に構成ステップに分解します。
本手法では,手動オブジェクト間相互作用(HOI)検出,オブジェクト類似度測定,有限状態マシン(FSM)表現を組み合わせて,動画の自動編集を行う。
畳み込みニューラルネットワーク(cnns)とfsmを組み合わせて,実ハンドアクティビティを観察しながら切断セグメントの検出,編集,マージを行う。
我々は,2つのデータセット,gtea\cite{li2015delving}と,中国製茶用データセットについて定量的・定性的にアルゴリズムを評価した。
以上の結果から,手物体間インタラクション動画を高い精度でキーステップセグメントに分割できることがわかった。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Automatic Interaction and Activity Recognition from Videos of Human
Manual Demonstrations with Application to Anomaly Detection [0.0]
本稿では、シーングラフを利用して、動きパターンとコンテキストを同時に処理しながら、画像シーケンスから重要な相互作用特徴を抽出する。
イベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、同様のイベントをグループ化して、監視されたアクティビティが正しく実行されるかどうかを検出する。
論文 参考訳(メタデータ) (2023-04-19T16:15:23Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。