論文の概要: Keystep Recognition using Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2506.01102v1
- Date: Sun, 01 Jun 2025 17:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.931739
- Title: Keystep Recognition using Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いたキーステップ認識
- Authors: Julia Lee Romero, Kyle Min, Subarna Tripathi, Morteza Karimzadeh,
- Abstract要約: 我々は,エゴセントリックビデオにおけるキーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。
構築されたグラフはスパースで計算効率が良く、既存のより大きなモデルを大幅に上回っている。
Ego-Exo4Dデータセット上で広範な実験を行い、提案したフレキシブルグラフベースのフレームワークが既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 11.421362760480527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We pose keystep recognition as a node classification task, and propose a flexible graph-learning framework for fine-grained keystep recognition that is able to effectively leverage long-term dependencies in egocentric videos. Our approach, termed GLEVR, consists of constructing a graph where each video clip of the egocentric video corresponds to a node. The constructed graphs are sparse and computationally efficient, outperforming existing larger models substantially. We further leverage alignment between egocentric and exocentric videos during training for improved inference on egocentric videos, as well as adding automatic captioning as an additional modality. We consider each clip of each exocentric video (if available) or video captions as additional nodes during training. We examine several strategies to define connections across these nodes. We perform extensive experiments on the Ego-Exo4D dataset and show that our proposed flexible graph-based framework notably outperforms existing methods.
- Abstract(参考訳): 我々は,ノード分類タスクとしてキーステップ認識を行い,エゴセントリックビデオの長期依存性を効果的に活用できる,きめ細かいキーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。
我々の手法はGLEVRと呼ばれ、エゴセントリックビデオの各ビデオクリップがノードに対応するグラフを構成する。
構築されたグラフはスパースで計算効率が良く、既存のより大きなモデルを大幅に上回っている。
さらに、トレーニング中にエゴセントリックビデオとエゴセントリックビデオのアライメントを活用して、エゴセントリックビデオの推論を改善するとともに、追加のモダリティとして自動キャプションを追加する。
トレーニング中の各ビデオクリップ(利用可能であれば)やビデオキャプションを追加ノードとみなす。
これらのノード間の接続を定義するためのいくつかの戦略を検討する。
Ego-Exo4Dデータセット上で広範な実験を行い、提案したフレキシブルグラフベースのフレームワークが既存の手法よりも優れていることを示す。
関連論文リスト
- Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。
具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。
我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文 参考訳(メタデータ) (2025-05-07T09:20:12Z) - Graph-Based Multimodal and Multi-view Alignment for Keystep Recognition [11.421362760480527]
そこで我々は,エゴセントリックビデオにおける微粒化キーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。
提案手法は,既存の手法よりも12ポイント以上精度が高いことを示す。
ヘテロジニアスグラフ上でのナレーション,深さ,オブジェクトクラスラベルなど,複数のマルチモーダル特徴の活用について検討する。
論文 参考訳(メタデータ) (2025-01-07T20:02:55Z) - VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Edge but not Least: Cross-View Graph Pooling [76.71497833616024]
本稿では,重要なグラフ構造情報を活用するために,クロスビューグラフプーリング(Co-Pooling)手法を提案する。
クロスビュー相互作用、エッジビュープーリング、ノードビュープーリングにより、相互にシームレスに強化され、より情報的なグラフレベルの表現が学習される。
論文 参考訳(メタデータ) (2021-09-24T08:01:23Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z) - Cut-Based Graph Learning Networks to Discover Compositional Structure of
Sequential Video Data [29.841574293529796]
ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。
CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。
ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの異なる課題について,提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-01-17T10:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。