論文の概要: Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos
- arxiv url: http://arxiv.org/abs/2203.14104v1
- Date: Sat, 26 Mar 2022 15:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:44:08.554977
- Title: Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos
- Title(参考訳): bridge-prompt: 授業ビデオにおける順序的行動理解に向けて
- Authors: Muheng Li, Lei Chen, Yueqi Duan, Zhilan Hu, Jianjiang Feng, Jie Zhou,
Jiwen Lu
- Abstract要約: 本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
- 参考スコア(独自算出の注目度): 92.18898962396042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition models have shown a promising capability to classify human
actions in short video clips. In a real scenario, multiple correlated human
actions commonly occur in particular orders, forming semantically meaningful
human activities. Conventional action recognition approaches focus on analyzing
single actions. However, they fail to fully reason about the contextual
relations between adjacent actions, which provide potential temporal logic for
understanding long videos. In this paper, we propose a prompt-based framework,
Bridge-Prompt (Br-Prompt), to model the semantics across adjacent actions, so
that it simultaneously exploits both out-of-context and contextual information
from a series of ordinal actions in instructional videos. More specifically, we
reformulate the individual action labels as integrated text prompts for
supervision, which bridge the gap between individual action semantics. The
generated text prompts are paired with corresponding video clips, and together
co-train the text encoder and the video encoder via a contrastive approach. The
learned vision encoder has a stronger capability for ordinal-action-related
downstream tasks, e.g. action segmentation and human activity recognition. We
evaluate the performances of our approach on several video datasets: Georgia
Tech Egocentric Activities (GTEA), 50Salads, and the Breakfast dataset.
Br-Prompt achieves state-of-the-art on multiple benchmarks. Code is available
at https://github.com/ttlmh/Bridge-Prompt
- Abstract(参考訳): アクション認識モデルは、人間のアクションを短いビデオクリップで分類する有望な能力を示している。
現実のシナリオでは、複数の相関した人間の行動は、通常、特定の順序で起こり、意味的に有意義な人間の活動を形成する。
従来の行動認識アプローチは単一行動の分析に焦点をあてる。
しかし、隣接するアクション間の文脈的関係について完全には説明できず、長いビデオを理解するための潜在的な時間論理を提供する。
本稿では,隣接するアクション間の意味をモデル化するプロンプトベースのフレームワークである bridge-prompt (br-prompt) を提案する。
より具体的には、個別のアクションラベルを、個別のアクションセマンティクス間のギャップを埋める監視のための統合テキストプロンプトとして再構成する。
生成されたテキストプロンプトは対応するビデオクリップとペアリングされ、コントラスト的アプローチによりテキストエンコーダとビデオエンコーダを共訓練する。
学習されたビジョンエンコーダは、アクションセグメンテーションやヒューマンアクティビティ認識など、順序動作に関連した下流タスクに対して強力な能力を持つ。
我々は、ジョージア技術中心活動(GTEA)、50Salads、Breakfastデータセットなど、いくつかのビデオデータセットに対するアプローチのパフォーマンスを評価した。
Br-Promptは複数のベンチマークで最先端を達成する。
コードはhttps://github.com/ttlmh/Bridge-Promptで入手できる。
関連論文リスト
- Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary
Action Recognition [91.25980503879222]
Contrastive Language-Image Pretraining (CLIP) は、様々な画像理解タスクにおいて顕著な開語彙能力を示している。
近年の先駆的な研究は、強力なCLIPをビデオデータに適用することを提案しており、オープン語彙アクション認識のための効率的で効果的なビデオ学習者を生み出している。
CLIPベースのビデオ学習者は、トレーニング中に遭遇していないビデオドメインに効果的に一般化できますか?
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。