論文の概要: Open-Vocabulary Action Localization with Iterative Visual Prompting
- arxiv url: http://arxiv.org/abs/2408.17422v4
- Date: Thu, 10 Oct 2024 07:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:57:28.079706
- Title: Open-Vocabulary Action Localization with Iterative Visual Prompting
- Title(参考訳): 反復的視覚プロンプティングによるオープンボキャブラリ動作の定位
- Authors: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi,
- Abstract要約: ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
本稿では,新たな視覚言語モデルに基づく学習自由でオープンな語彙アプローチを提案する。
- 参考スコア(独自算出の注目度): 8.07285448283823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start and end of the action. Iterating this process by narrowing a sampling time window results in finding the specific frames corresponding to the start and end of an action. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results illustrate a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/.
- Abstract(参考訳): ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。
既存の学習ベースのアプローチは成功したが、アノテートビデオが必要である。
本稿では,市販の視覚言語モデル(VLM)に基づく学習自由でオープンな語彙アプローチを提案する。
この課題は、VLMが長いビデオを処理するように設計されていないことと、アクションを見つけるために調整されていることに起因している。
我々は、反復的な視覚的プロンプト技術を拡張することで、これらの問題を克服する。
具体的には、ビデオフレームをサンプリングし、フレームインデックスラベルと連結した画像を作成し、VLMはアクションの開始と終了に最も近いと考えられるフレームを推測する。
このプロセスをサンプリング時間ウィンドウを絞り込むことで反復することで、アクションの開始と終了に対応する特定のフレームを見つけることができる。
我々は,この手法が,最先端のゼロショットアクションローカライゼーションに匹敵する結果が得られることを実証した。
これらの結果はビデオ理解のためのVLMの実践的拡張を示している。
サンプルコードはhttps://microsoft.github.io/VLM-Video-Action-Localization/で公開されている。
関連論文リスト
- Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。
我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文 参考訳(メタデータ) (2024-03-03T16:48:16Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。