論文の概要: Training-free Online Video Step Grounding
- arxiv url: http://arxiv.org/abs/2510.16989v1
- Date: Sun, 19 Oct 2025 20:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.237322
- Title: Training-free Online Video Step Grounding
- Title(参考訳): トレーニング不要のオンラインビデオステップグラウンド
- Authors: Luca Zanella, Massimiliano Mancini, Yiming Wang, Alessio Tonioni, Elisa Ricci,
- Abstract要約: ビデオステップグラウンド(VSG)は、ビデオ内でどのステップが実行されるかを検出することを目的としている。
我々は、最近のLarge Multimodal Models (LMM) のゼロショット機能を利用して、VSGをオンラインで、トレーニングなしで実行します。
タスク固有のチューニングを伴わないこのオンライン戦略は、オフラインおよびトレーニングベースのモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 42.545599316279954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given a task and a set of steps composing it, Video Step Grounding (VSG) aims to detect which steps are performed in a video. Standard approaches for this task require a labeled training set (e.g., with step-level annotations or narrations), which may be costly to collect. Moreover, they process the full video offline, limiting their applications for scenarios requiring online decisions. Thus, in this work, we explore how to perform VSG online and without training. We achieve this by exploiting the zero-shot capabilities of recent Large Multimodal Models (LMMs). In particular, we use LMMs to predict the step associated with a restricted set of frames, without access to the whole video. We show that this online strategy without task-specific tuning outperforms offline and training-based models. Motivated by this finding, we develop Bayesian Grounding with Large Multimodal Models (BaGLM), further injecting knowledge of past frames into the LMM-based predictions. BaGLM exploits Bayesian filtering principles, modeling step transitions via (i) a dependency matrix extracted through large language models and (ii) an estimation of step progress. Experiments on three datasets show superior performance of BaGLM over state-of-the-art training-based offline methods.
- Abstract(参考訳): タスクとそれを構成する一連のステップが与えられた場合、ビデオステップグラウンディング(VSG)は、ビデオ内でどのステップが実行されるかを検出することを目的としている。
このタスクの標準的なアプローチでは、ラベル付きトレーニングセット(ステップレベルのアノテーションやナレーションを含む)が必要になります。
さらに、全ビデオをオフラインで処理し、オンライン決定を必要とするシナリオのアプリケーションを制限する。
そこで本研究では,VSGをオンラインかつトレーニングなしで行う方法について検討する。
近年のLarge Multimodal Models (LMM) のゼロショット機能を利用してこれを実現している。
特に、ビデオ全体にアクセスすることなく、制限されたフレームのセットに関連するステップを予測するためにLMMを使用する。
タスク固有のチューニングを伴わないこのオンライン戦略は、オフラインおよびトレーニングベースのモデルよりも優れていることを示す。
この発見により,我々は,過去のフレームの知識をLMMに基づく予測に注入するBaGLM(Bayesian Grounding with Large Multimodal Models)を開発した。
BaGLMはベイズフィルタの原理を利用し、ステップ遷移をモデル化する
(i)大きな言語モデルから抽出された依存行列
(ii)段階進行の推定
3つのデータセットの実験では、最先端のトレーニングベースのオフラインメソッドよりもBaGLMの方が優れたパフォーマンスを示している。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.40747899831793]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Reinforced Language Models for Sequential Decision Making [6.971286730860635]
大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示している。
既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクにおけるクレジット割り当てを処理できない。
この研究は、標的となるポストトレーニングが、シーケンシャルな意思決定エージェントを作成するためのモデルスケールに依存する、実用的で効率的な代替手段であることを実証している。
論文 参考訳(メタデータ) (2025-08-14T17:05:44Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。