論文の概要: Localizing Moments in Long Video Via Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2302.13372v1
- Date: Sun, 26 Feb 2023 18:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:37:21.971049
- Title: Localizing Moments in Long Video Via Multimodal Guidance
- Title(参考訳): マルチモーダル誘導映像におけるモーメントの局所化
- Authors: Wayner Barrios, Mattia Soldan, Fabian Caba Heilbron, Alberto Mario
Ceballos-Arroyo and Bernard Ghanem
- Abstract要約: グラウンディングパイプラインに新たなコンポーネントとして,Guidanceモデルを導入しています。
誘導モデルの目的は、グラウンド方式の探索空間から無関係なビデオセグメントを効率的に除去することである。
この2段階のアプローチは、挑戦的なMADデータセットに基づいて、いくつかの異なる基盤となるベースラインのパフォーマンスを高めるのに有効であることが判明した。
- 参考スコア(独自算出の注目度): 56.283665713642705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent introduction of the large-scale long-form MAD dataset for language
grounding in videos has enabled researchers to investigate the performance of
current state-of-the-art methods in the long-form setup, with unexpected
findings. In fact, current grounding methods alone fail at tackling this
challenging task and setup due to their inability to process long video
sequences. In this work, we propose an effective way to circumvent the
long-form burden by introducing a new component to grounding pipelines: a
Guidance model. The purpose of the Guidance model is to efficiently remove
irrelevant video segments from the search space of grounding methods by
coarsely aligning the sentence to chunks of the movies and then applying legacy
grounding methods where high correlation is found. We term these video segments
as non-describable moments. This two-stage approach reveals to be effective in
boosting the performance of several different grounding baselines on the
challenging MAD dataset, achieving new state-of-the-art performance.
- Abstract(参考訳): 最近のビデオにおける言語接地のための大規模長文MADデータセットの導入により、研究者は予期せぬ結果とともに、長文設定における現在の最先端手法の性能を調査できるようになった。
実際、現在の接地法だけでは、長いビデオシーケンスを処理できないため、この困難なタスクとセットアップに対処できない。
本研究では,パイプラインの接地に新たなコンポーネントを導入することで,長期的負担を回避する効果的な方法を提案する。
本モデルの目的は,映像のチャンクに文章を粗くアライメントし,高い相関関係を見出すレガシーなグラウンド化手法を適用することにより,グラウンド化手法の検索空間から無関係なビデオセグメントを効率的に除去することである。
これらのビデオセグメントを説明不能な瞬間とみなす。
この2段階のアプローチは、挑戦的なMADデータセットに基づいて、いくつかの異なる基盤となるベースラインのパフォーマンスを向上し、新しい最先端のパフォーマンスを達成するのに効果的である。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation [20.88042649759396]
空間的整合性を高めるために,多視点にわたって共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法を提案する。
本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。
我々のフレームワークは、認識と予測タスクを超えて、エンド・ツー・エンドの自動運転モデルの計画性能を25%向上させることができます。
論文 参考訳(メタデータ) (2024-06-03T14:13:13Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。