論文の概要: Localizing Moments in Long Video Via Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2302.13372v2
- Date: Sun, 15 Oct 2023 13:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:25:44.261595
- Title: Localizing Moments in Long Video Via Multimodal Guidance
- Title(参考訳): マルチモーダル誘導映像におけるモーメントの局所化
- Authors: Wayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian
Caba Heilbron and Bernard Ghanem
- Abstract要約: 本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
- 参考スコア(独自算出の注目度): 51.72829274071017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent introduction of the large-scale, long-form MAD and Ego4D datasets
has enabled researchers to investigate the performance of current
state-of-the-art methods for video grounding in the long-form setup, with
interesting findings: current grounding methods alone fail at tackling this
challenging task and setup due to their inability to process long video
sequences. In this paper, we propose a method for improving the performance of
natural language grounding in long videos by identifying and pruning out
non-describable windows. We design a guided grounding framework consisting of a
Guidance Model and a base grounding model. The Guidance Model emphasizes
describable windows, while the base grounding model analyzes short temporal
windows to determine which segments accurately match a given language query. We
offer two designs for the Guidance Model: Query-Agnostic and Query-Dependent,
which balance efficiency and accuracy. Experiments demonstrate that our
proposed method outperforms state-of-the-art models by 4.1% in MAD and 4.52% in
Ego4D (NLQ), respectively. Code, data and MAD's audio features necessary to
reproduce our experiments are available at:
https://github.com/waybarrios/guidance-based-video-grounding.
- Abstract(参考訳): 最近の大規模で長期のMADとEgo4Dデータセットの導入により、研究者は、長期のセットアップにおける現在の最先端のビデオグラウンドのパフォーマンスを調査できるようになった。
本稿では,非記述可能なウィンドウを識別し,取り出すことによって,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
我々は,誘導モデルと基底接地モデルからなる誘導接地フレームワークを設計した。
Guidance Modelは記述可能なウィンドウを強調し、ベースグラウンドモデルは短い時間ウィンドウを分析し、どのセグメントが与えられた言語クエリと正確に一致するかを判断する。
私たちは、効率と精度のバランスをとる、Query-AgnosticとQuery-Dependentの2つのデザインを提供します。
提案手法は,MADでは4.1%,Ego4D(NLQ)では4.52%,最先端モデルでは2。
実験を再現するために必要なコード、データ、MADのオーディオ機能は、https://github.com/waybarrios/guidance-based-video-grounding.comにある。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation [20.88042649759396]
空間的整合性を高めるために,多視点にわたって共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法を提案する。
本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。
我々のフレームワークは、認識と予測タスクを超えて、エンド・ツー・エンドの自動運転モデルの計画性能を25%向上させることができます。
論文 参考訳(メタデータ) (2024-06-03T14:13:13Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。