Fugu-MT 論文翻訳(概要): Localizing Moments in Long Video Via Multimodal Guidance

論文の概要: Localizing Moments in Long Video Via Multimodal Guidance

arxiv url: http://arxiv.org/abs/2302.13372v2
Date: Sun, 15 Oct 2023 13:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 23:25:44.261595
Title: Localizing Moments in Long Video Via Multimodal Guidance
Title（参考訳）: マルチモーダル誘導映像におけるモーメントの局所化
Authors: Wayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian Caba Heilbron and Bernard Ghanem
Abstract要約: 本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
参考スコア（独自算出の注目度）: 51.72829274071017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent introduction of the large-scale, long-form MAD and Ego4D datasets has enabled researchers to investigate the performance of current state-of-the-art methods for video grounding in the long-form setup, with interesting findings: current grounding methods alone fail at tackling this challenging task and setup due to their inability to process long video sequences. In this paper, we propose a method for improving the performance of natural language grounding in long videos by identifying and pruning out non-describable windows. We design a guided grounding framework consisting of a Guidance Model and a base grounding model. The Guidance Model emphasizes describable windows, while the base grounding model analyzes short temporal windows to determine which segments accurately match a given language query. We offer two designs for the Guidance Model: Query-Agnostic and Query-Dependent, which balance efficiency and accuracy. Experiments demonstrate that our proposed method outperforms state-of-the-art models by 4.1% in MAD and 4.52% in Ego4D (NLQ), respectively. Code, data and MAD's audio features necessary to reproduce our experiments are available at: https://github.com/waybarrios/guidance-based-video-grounding.
Abstract（参考訳）: 最近の大規模で長期のMADとEgo4Dデータセットの導入により、研究者は、長期のセットアップにおける現在の最先端のビデオグラウンドのパフォーマンスを調査できるようになった。本稿では,非記述可能なウィンドウを識別し,取り出すことによって,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。我々は,誘導モデルと基底接地モデルからなる誘導接地フレームワークを設計した。 Guidance Modelは記述可能なウィンドウを強調し、ベースグラウンドモデルは短い時間ウィンドウを分析し、どのセグメントが与えられた言語クエリと正確に一致するかを判断する。私たちは、効率と精度のバランスをとる、Query-AgnosticとQuery-Dependentの2つのデザインを提供します。提案手法は,MADでは4.1%,Ego4D(NLQ)では4.52%,最先端モデルでは2。実験を再現するために必要なコード、データ、MADのオーディオ機能は、https://github.com/waybarrios/guidance-based-video-grounding.comにある。

関連論文リスト

Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。 TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。 LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文参考訳（メタデータ） (2025-01-23T18:58:03Z)
VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。 VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文参考訳（メタデータ） (2024-12-01T00:33:05Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation [20.88042649759396]
空間的整合性を高めるために,多視点にわたって共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法を提案する。本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。我々のフレームワークは、認識と予測タスクを超えて、エンド・ツー・エンドの自動運転モデルの計画性能を25%向上させることができます。
論文参考訳（メタデータ） (2024-06-03T14:13:13Z)
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文参考訳（メタデータ） (2024-04-25T19:29:55Z)
Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文参考訳（メタデータ） (2023-12-31T13:53:37Z)
Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。 TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-14T12:30:58Z)
TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文参考訳（メタデータ） (2023-06-14T17:07:51Z)
End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文参考訳（メタデータ） (2021-09-23T10:03:32Z)
PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文参考訳（メタデータ） (2021-03-21T06:15:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。