論文の概要: Temporally Grounding Instructional Diagrams in Unconstrained Videos
- arxiv url: http://arxiv.org/abs/2407.12066v4
- Date: Mon, 02 Dec 2024 03:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:49.955155
- Title: Temporally Grounding Instructional Diagrams in Unconstrained Videos
- Title(参考訳): 非拘束映像における時間的グラウンドインストラクショナルダイアグラム
- Authors: Jiahao Zhang, Frederic Z. Zhang, Cristian Rodriguez, Yizhak Ben-Shabat, Anoop Cherian, Stephen Gould,
- Abstract要約: 本稿では,ビデオ中の命令図中のクエリ列を同時にローカライズするという課題について検討する。
既存のほとんどのメソッドは、クエリの固有の構造を無視しながら、一度に1つのクエリをグラウンドすることに焦点を当てている。
ステップダイアグラムの視覚的特徴を包括的にペアリングして構築した複合クエリを提案する。
ステップ図のグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 51.85805768507356
- License:
- Abstract: We study the challenging problem of simultaneously localizing a sequence of queries in the form of instructional diagrams in a video. This requires understanding not only the individual queries but also their interrelationships. However, most existing methods focus on grounding one query at a time, ignoring the inherent structures among queries such as the general mutual exclusiveness and the temporal order. Consequently, the predicted timespans of different step diagrams may overlap considerably or violate the temporal order, thus harming the accuracy. In this paper, we tackle this issue by simultaneously grounding a sequence of step diagrams. Specifically, we propose composite queries, constructed by exhaustively pairing up the visual content features of the step diagrams and a fixed number of learnable positional embeddings. Our insight is that self-attention among composite queries carrying different content features suppress each other to reduce timespan overlaps in predictions, while the cross-attention corrects the temporal misalignment via content and position joint guidance. We demonstrate the effectiveness of our approach on the IAW dataset for grounding step diagrams and the YouCook2 benchmark for grounding natural language queries, significantly outperforming existing methods while simultaneously grounding multiple queries.
- Abstract(参考訳): ビデオ中の命令図の形式でクエリのシーケンスを同時にローカライズするという課題について検討する。
これは個々のクエリだけでなく、相互関係も理解する必要がある。
しかし、既存のほとんどの手法は、汎用的な相互排他性や時間的順序といったクエリの固有の構造を無視して、一度に1つのクエリを基底にすることに焦点を当てている。
これにより、異なるステップダイアグラムの予測タイムパンが著しく重複したり、時間順序に反したりし、精度を損なう可能性がある。
本稿では,一連のステップ図を同時に構築することにより,この問題に対処する。
具体的には、ステップダイアグラムの視覚的特徴と学習可能な定数の位置埋め込みとを徹底的に組み合わせて構築した複合クエリを提案する。
コンテントの特徴が異なる複合クエリ間の自己アテンションが抑制され,予測の時間的重複が減少するのに対して,クロスアテンションはコンテンツと位置ジョイントガイダンスによって時間的ミスアライメントを補正する。
ステップダイアグラムのグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。
関連論文リスト
- Learning Hidden Subgoals under Temporal Ordering Constraints in Reinforcement Learning [14.46490764849977]
本稿では, bf 順序付き bf 制約 (LSTOC) に基づく bf l 隠れ bf サブゴールに対する新しい RL アルゴリズムを提案する。
本研究では,隠れたサブゴールとその時間的順序を同時に学習できる新しいコントラスト学習目標を提案する。
論文 参考訳(メタデータ) (2024-11-03T03:22:39Z) - Learning Sequence Descriptor based on Spatio-Temporal Attention for
Visual Place Recognition [16.380948630155476]
ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するタグ付きデータベースからフレームを取得することを目的としている。
ジオリーエイリアスシナリオにおけるVPRのロバスト性を改善するために,シーケンスベースのVPR手法を提案する。
我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。
論文 参考訳(メタデータ) (2023-05-19T06:39:10Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。