論文の概要: A Hierarchical Graph-based Approach for Recognition and Description
Generation of Bimanual Actions in Videos
- arxiv url: http://arxiv.org/abs/2310.00670v1
- Date: Sun, 1 Oct 2023 13:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:37:17.774550
- Title: A Hierarchical Graph-based Approach for Recognition and Description
Generation of Bimanual Actions in Videos
- Title(参考訳): 階層グラフによるビデオにおけるバイマニラル動作の認識と記述生成
- Authors: Fatemeh Ziaeetabar, Reza Safabakhsh, Saeedeh Momtazi, Minija
Tamosiunaite, Florentin W\"org\"otter
- Abstract要約: 本研究では,階層型階層型アテンション機構とグラフベースモデリングを統合した新しい手法について述べる。
このアプローチの複雑さは、複数の2Dデータセットと3Dデータセットを使って経験的にテストされています。
- 参考スコア(独自算出の注目度): 3.7486111821201287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nuanced understanding and the generation of detailed descriptive content for
(bimanual) manipulation actions in videos is important for disciplines such as
robotics, human-computer interaction, and video content analysis. This study
describes a novel method, integrating graph based modeling with layered
hierarchical attention mechanisms, resulting in higher precision and better
comprehensiveness of video descriptions. To achieve this, we encode, first, the
spatio-temporal inter dependencies between objects and actions with scene
graphs and we combine this, in a second step, with a novel 3-level architecture
creating a hierarchical attention mechanism using Graph Attention Networks
(GATs). The 3-level GAT architecture allows recognizing local, but also global
contextual elements. This way several descriptions with different semantic
complexity can be generated in parallel for the same video clip, enhancing the
discriminative accuracy of action recognition and action description. The
performance of our approach is empirically tested using several 2D and 3D
datasets. By comparing our method to the state of the art we consistently
obtain better performance concerning accuracy, precision, and contextual
relevance when evaluating action recognition as well as description generation.
In a large set of ablation experiments we also assess the role of the different
components of our model. With our multi-level approach the system obtains
different semantic description depths, often observed in descriptions made by
different people, too. Furthermore, better insight into bimanual hand-object
interactions as achieved by our model may portend advancements in the field of
robotics, enabling the emulation of intricate human actions with heightened
precision.
- Abstract(参考訳): ロボット工学、人-コンピュータインタラクション、ビデオコンテンツ分析などの分野において、ビデオにおける(生体)操作動作に対する詳細な理解と説明コンテンツの生成が重要である。
本研究では,グラフベースモデリングと階層的注意機構の統合により,映像記述の精度と包括性が向上した新しい手法を提案する。
これを実現するため、まずオブジェクトとアクションの間の時空間的相互依存関係をシーングラフと符号化し、第2のステップとして、グラフアテンションネットワーク(gats)を用いた階層的アテンションメカニズムを構築する新しい3レベルアーキテクチャと組み合わせる。
3段階のGATアーキテクチャは、ローカルだがグローバルなコンテキスト要素の認識を可能にする。
これにより、同じビデオクリップに対して異なる意味複雑性を持つ複数の記述が並列に生成され、アクション認識とアクション記述の識別精度が向上する。
提案手法の性能は,複数の2次元および3次元データセットを用いて実験的に検証した。
本手法を技術状況と比較することにより,動作認識の評価や記述生成における精度,精度,文脈的関連性に関する優れた性能が得られる。
また, 多くのアブレーション実験において, モデルにおける異なる成分の役割についても検討した。
マルチレベルアプローチでは,システムによって異なる意味的記述の深さが得られます。
さらに,本モデルが達成した2次元の物体間相互作用に対するより良い洞察はロボット工学の進歩を後押しする可能性があり,精度を高めた複雑な人間の行動のエミュレーションを可能にする。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。