論文の概要: VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval
- arxiv url: http://arxiv.org/abs/2412.01558v1
- Date: Mon, 02 Dec 2024 14:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:51.252425
- Title: VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval
- Title(参考訳): VideoLights:ジョイントビデオハイライト検出とモーメント検索のための機能リファインメントとクロスタスクアライメント変換器
- Authors: Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman,
- Abstract要約: 大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 8.908777234657046
- License:
- Abstract: Video Highlight Detection and Moment Retrieval (HD/MR) are essential in video analysis. Recent joint prediction transformer models often overlook their cross-task dynamics and video-text alignment and refinement. Moreover, most models typically use limited, uni-directional attention mechanisms, resulting in weakly integrated representations and suboptimal performance in capturing the interdependence between video and text modalities. Although large-language and vision-language models (LLM/LVLMs) have gained prominence across various domains, their application in this field remains relatively underexplored. Here we propose VideoLights, a novel HD/MR framework addressing these limitations through (i) Convolutional Projection and Feature Refinement modules with an alignment loss for better video-text feature alignment, (ii) Bi-Directional Cross-Modal Fusion network for strongly coupled query-aware clip representations, and (iii) Uni-directional joint-task feedback mechanism enhancing both tasks through correlation. In addition, (iv) we introduce hard positive/negative losses for adaptive error penalization and improved learning, and (v) leverage LVLMs like BLIP-2 for enhanced multimodal feature integration and intelligent pretraining using synthetic data generated from LVLMs. Comprehensive experiments on QVHighlights, TVSum, and Charades-STA benchmarks demonstrate state-of-the-art performance. Codes and models are available at https://github.com/dpaul06/VideoLights .
- Abstract(参考訳): ビデオのハイライト検出とモーメント検索(HD/MR)はビデオ解析に不可欠である。
最近の共同予測変換器モデルは、しばしばクロスタスクのダイナミクスとビデオテキストのアライメントと改善を見落としている。
さらに、ほとんどのモデルでは、制限された一方向の注意機構を使用しており、ビデオとテキストのモード間の相互依存を捉える際に、弱い統合表現と準最適性能をもたらす。
大規模言語および視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及しているが、この分野での応用はいまだに未熟である。
本稿では,これらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
(i)コンボリューショナル・プロジェクションとアライメント・アライメント・アライメント・アライメント・コンボリューショナル・リファインメント・モジュール
(II)二方向クロスモーダルフュージョンネットワークによる強結合型問合せ対応型クリップ表現
三 相関による両作業の強化を図る一方向共同タスクフィードバック機構
また、
(4)適応的誤りのペナル化と学習改善のためのハード・ポジティ/負の損失を導入し、
(v) BLIP-2のようなLVLMを活用し、LVLMから生成された合成データを用いてマルチモーダル特徴統合とインテリジェント事前学習を行う。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
コードとモデルはhttps://github.com/dpaul06/VideoLights で公開されている。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Bridging the Gap: A Unified Video Comprehension Framework for Moment
Retrieval and Highlight Detection [45.82453232979516]
ビデオモーメント検索 (MR) とハイライト検出 (HD) は, ビデオ解析の需要が高まっているため, 注目されている。
最近のアプローチでは、MRとHDをビデオグラウンド問題として扱い、トランスフォーマーベースのアーキテクチャでそれらに対処している。
本稿では,そのギャップを埋め,MRとHDを効果的に解決するための統一ビデオ理解フレームワーク(UVCOM)を提案する。
論文 参考訳(メタデータ) (2023-11-28T03:55:23Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Video-Text Representation Learning via Differentiable Weak Temporal
Alignment [11.967313324773668]
教師付き手法でビデオとテキストの汎用的な共同表現を学習するには、大量の手動注釈付きビデオデータセットが必要である。
あいまいさと非順序的なアライメントのため、ビデオとテキストの共同埋め込みを自己指導的に学ぶことは依然として困難である。
本稿では,VT-TWINS (Video-Text Temporally Weak Alignment-based Contrastive Learning) を提案する。
論文 参考訳(メタデータ) (2022-03-31T04:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。