Fugu-MT 論文翻訳(概要): Open-Vocabulary Action Localization with Iterative Visual Prompting

論文の概要: Open-Vocabulary Action Localization with Iterative Visual Prompting

arxiv url: http://arxiv.org/abs/2408.17422v4
Date: Thu, 10 Oct 2024 07:22:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:57:28.079706
Title: Open-Vocabulary Action Localization with Iterative Visual Prompting
Title（参考訳）: 反復的視覚プロンプティングによるオープンボキャブラリ動作の定位
Authors: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi,
Abstract要約: ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。本稿では,新たな視覚言語モデルに基づく学習自由でオープンな語彙アプローチを提案する。
参考スコア（独自算出の注目度）: 8.07285448283823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a learning-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, making a VLM guess a frame that is considered to be closest to the start and end of the action. Iterating this process by narrowing a sampling time window results in finding the specific frames corresponding to the start and end of an action. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results illustrate a practical extension of VLMs for understanding videos. A sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/.
Abstract（参考訳）: ビデオアクションのローカライゼーションは、長いビデオから特定のアクションのタイミングを見つけることを目的としている。既存の学習ベースのアプローチは成功したが、アノテートビデオが必要である。本稿では,市販の視覚言語モデル(VLM)に基づく学習自由でオープンな語彙アプローチを提案する。この課題は、VLMが長いビデオを処理するように設計されていないことと、アクションを見つけるために調整されていることに起因している。我々は、反復的な視覚的プロンプト技術を拡張することで、これらの問題を克服する。具体的には、ビデオフレームをサンプリングし、フレームインデックスラベルと連結した画像を作成し、VLMはアクションの開始と終了に最も近いと考えられるフレームを推測する。このプロセスをサンプリング時間ウィンドウを絞り込むことで反復することで、アクションの開始と終了に対応する特定のフレームを見つけることができる。我々は,この手法が,最先端のゼロショットアクションローカライゼーションに匹敵する結果が得られることを実証した。これらの結果はビデオ理解のためのVLMの実践的拡張を示している。サンプルコードはhttps://microsoft.github.io/VLM-Video-Action-Localization/で公開されている。

関連論文リスト

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering [0.6107667071306521]
長時間のエゴセントリックなビデオに対する質問応答のためのフレームワークであるFocusGraphを開発した。我々は軽量なトレーニング可能なScene-Caption LLMセレクタを使用し、グラフベースのキャプションに基づいてクエリ関連クリップを選択する。次に、トレーニング不要なPatch-wise Sparse-Flow Retention (PSFR) 法を設計し、その結果のクリップ列からテキストを選択する。
論文参考訳（メタデータ） (2026-03-04T18:14:00Z)
LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation [32.57236582010967]
ビデオ大言語モデル(VLLM)は、インターネット規模のデータの事前学習を通じて、世界認知ビデオ理解を解放する。本稿では,ビデオから直接VLLM世界の知識を抽出し,高速な推論を可能にするLinkedOutを提案する。我々は、リッチなVLLM機能から適切な抽象化レベルを選択し、パーソナライズ、解釈可能、低レイテンシのレコメンデーションを可能にする層間知識融合MoEを導入する。
論文参考訳（メタデータ） (2025-12-18T18:52:18Z)
Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-08-05T02:28:58Z)
Temporal Chain of Thought: Long-Video Understanding by Thinking in Frames [70.93346841539626]
本稿では,ビデオ質問応答のための推論戦略である思考の時間的連鎖について述べる。 VLM自体を使用して、ビデオから最も関連性の高いフレームを反復的に識別し、抽出する。推論時により多くの計算を利用すれば、最も関連性の高いコンテキストを選択することで、精度が向上することを示す。
論文参考訳（メタデータ） (2025-07-01T18:39:26Z)
Parameter-free Video Segmentation for Vision and Language Understanding [55.20132267309382]
最小記述長の原理に基づいて,映像を連続的なチャンクに分割するアルゴリズムを提案する。アルゴリズムは完全にパラメータフリーで、設定された閾値や指定するチャンクの数やサイズを必要としない特徴ベクトルが与えられる。
論文参考訳（メタデータ） (2025-03-03T05:54:37Z)
Zero-shot Action Localization via the Confidence of Large Vision-Language Models [19.683461002518147]
我々はZEAL(Zero-shot Action Localization Method)を導入する。具体的には、大規模言語モデル(LLM)の組み込みアクション知識を活用して、アクションを詳細に記述する。我々は、訓練をせずに、挑戦的なベンチマークでゼロショットアクションローカライゼーションの顕著な結果を示す。
論文参考訳（メタデータ） (2024-10-18T09:51:14Z)
Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition [84.31749632725929]
本稿では,この課題の1つの重要な課題,すなわちシーンバイアスに着目し,新しいシーン対応ビデオテキストアライメント手法を提案する。我々のキーとなる考え方は、映像表現とシーン符号化されたテキスト表現とを区別し、シーンに依存しないビデオ表現を学習し、ドメイン間のアクションを認識することである。
論文参考訳（メタデータ） (2024-03-03T16:48:16Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-11-17T11:27:15Z)
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文参考訳（メタデータ） (2022-03-29T17:43:01Z)
Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文参考訳（メタデータ） (2022-03-28T17:59:54Z)
Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文参考訳（メタデータ） (2022-03-25T12:13:43Z)
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。 6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文参考訳（メタデータ） (2021-02-11T18:50:16Z)
Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文参考訳（メタデータ） (2020-03-31T14:07:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。