論文の概要: Graph-Based Multimodal and Multi-view Alignment for Keystep Recognition
- arxiv url: http://arxiv.org/abs/2501.04121v1
- Date: Tue, 07 Jan 2025 20:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:06.154418
- Title: Graph-Based Multimodal and Multi-view Alignment for Keystep Recognition
- Title(参考訳): キーステップ認識のためのグラフベースマルチモーダル・マルチビューアライメント
- Authors: Julia Lee Romero, Kyle Min, Subarna Tripathi, Morteza Karimzadeh,
- Abstract要約: そこで我々は,エゴセントリックビデオにおける微粒化キーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。
提案手法は,既存の手法よりも12ポイント以上精度が高いことを示す。
ヘテロジニアスグラフ上でのナレーション,深さ,オブジェクトクラスラベルなど,複数のマルチモーダル特徴の活用について検討する。
- 参考スコア(独自算出の注目度): 11.421362760480527
- License:
- Abstract: Egocentric videos capture scenes from a wearer's viewpoint, resulting in dynamic backgrounds, frequent motion, and occlusions, posing challenges to accurate keystep recognition. We propose a flexible graph-learning framework for fine-grained keystep recognition that is able to effectively leverage long-term dependencies in egocentric videos, and leverage alignment between egocentric and exocentric videos during training for improved inference on egocentric videos. Our approach consists of constructing a graph where each video clip of the egocentric video corresponds to a node. During training, we consider each clip of each exocentric video (if available) as additional nodes. We examine several strategies to define connections across these nodes and pose keystep recognition as a node classification task on the constructed graphs. We perform extensive experiments on the Ego-Exo4D dataset and show that our proposed flexible graph-based framework notably outperforms existing methods by more than 12 points in accuracy. Furthermore, the constructed graphs are sparse and compute efficient. We also present a study examining on harnessing several multimodal features, including narrations, depth, and object class labels, on a heterogeneous graph and discuss their corresponding contribution to the keystep recognition performance.
- Abstract(参考訳): エゴセントリックなビデオは、着用者の視点からシーンを捉え、ダイナミックな背景、頻繁な動き、閉塞が生じ、正確なキーステップ認識に挑戦する。
我々は,エゴセントリックビデオにおける長期依存を効果的に活用し,エゴセントリックビデオの推論を改善するためのトレーニング中に,エゴセントリックビデオとエゴセントリックビデオのアライメントを活用することのできる,きめ細かいキーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。
提案手法は,エゴセントリックビデオの各ビデオクリップがノードに対応するグラフの構築から成り立っている。
トレーニング中、各エクソセントリックビデオ(利用可能であれば)の各クリップを追加ノードとみなす。
我々はこれらのノード間の接続を定義するためのいくつかの戦略を検討し、構築されたグラフ上でノード分類タスクとしてキーステップ認識を行う。
Ego-Exo4Dデータセット上で広範な実験を行い、提案したフレキシブルグラフベースのフレームワークが既存の手法よりも12ポイント以上精度で優れていることを示す。
さらに、構築されたグラフはスパースで計算効率が良い。
また,異種グラフ上でのナレーション,深さ,オブジェクトクラスラベルなどのマルチモーダルな特徴の活用について検討し,キーステップ認識性能に対するそれらの寄与について考察する。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Pose-Aided Video-based Person Re-Identification via Recurrent Graph
Convolutional Network [41.861537712563816]
本稿では,映像検索機能以外の識別的ポーズ特徴を学習することを提案する。
ポーズの特徴を学習するために、私たちはまず、オフザシェルフポーズ検知器を通して各フレーム内の歩行者のポーズを検出する。
次に、繰り返しグラフ畳み込みネットワーク(RGCN)を用いて、時間的ポーズグラフのノード埋め込みを学習する。
論文 参考訳(メタデータ) (2022-09-23T13:20:33Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。
複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文 参考訳(メタデータ) (2021-07-20T22:09:21Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data [29.841574293529796]
ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの異なる課題について,提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-01-17T10:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。