論文の概要: VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2501.06761v1
- Date: Sun, 12 Jan 2025 10:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:34.428403
- Title: VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning
- Title(参考訳): VidChain:Dense Video Captioningのためのメトリックベース直接選好最適化とタスクの連鎖
- Authors: Ji Soo Lee, Jongha Kim, Jeehye Na, Jinyoung Park, Hyunwoo J. Kim,
- Abstract要約: ビデオはビデオ内のすべてのイベントを記述するのに複雑なタスクであり、同時に時間的にそのイベントをローカライズする。
以前のVideoLLMは、そのタスクをひとつのステップで解決しようとするが、その推論能力は利用できない。
We propose VidChain of Chain-of-Tasks and Dense-based Direct Preference (DPO)。
M-DPOは、ビデオLLMを評価指標と整合させ、メトリクスに整合した各タスクに対してきめ細かい監督を提供する。
- 参考スコア(独自算出の注目度): 17.820597831536322
- License:
- Abstract: Despite the advancements of Video Large Language Models (VideoLLMs) in various tasks, they struggle with fine-grained temporal understanding, such as Dense Video Captioning (DVC). DVC is a complicated task of describing all events within a video while also temporally localizing them, which integrates multiple fine-grained tasks, including video segmentation, video captioning, and temporal video grounding. Previous VideoLLMs attempt to solve DVC in a single step, failing to utilize their reasoning capability. Moreover, previous training objectives for VideoLLMs do not fully reflect the evaluation metrics, therefore not providing supervision directly aligned to target tasks. To address such a problem, we propose a novel framework named VidChain comprised of Chain-of-Tasks (CoTasks) and Metric-based Direct Preference Optimization (M-DPO). CoTasks decompose a complex task into a sequence of sub-tasks, allowing VideoLLMs to leverage their reasoning capabilities more effectively. M-DPO aligns a VideoLLM with evaluation metrics, providing fine-grained supervision to each task that is well-aligned with metrics. Applied to two different VideoLLMs, VidChain consistently improves their fine-grained video understanding, thereby outperforming previous VideoLLMs on two different DVC benchmarks and also on the temporal video grounding task. Code is available at \url{https://github.com/mlvlab/VidChain}.
- Abstract(参考訳): ビデオ言語モデル(VideoLLMs)は様々なタスクにおいて進歩してきたが、DVC(Dense Video Captioning)のような微妙な時間的理解に苦慮している。
DVCは、ビデオ内のすべてのイベントを記述する複雑なタスクであり、時間的ローカライズも行っており、ビデオセグメンテーション、ビデオキャプション、時間的ビデオグラウンドティングなど、複数のきめ細かいタスクを統合している。
以前のVideoLLMは、DVCを単一のステップで解決しようとするが、その推論能力は利用できなかった。
さらに、ビデオLLMの以前のトレーニング目的は、評価基準を完全に反映していないため、ターゲットタスクと直接整合した監督を提供していない。
このような問題に対処するために、Chain-of-Tasks(CoTasks)とMetric-based Direct Preference Optimization(M-DPO)からなるVidChainという新しいフレームワークを提案する。
CoTasksは複雑なタスクをサブタスクのシーケンスに分解するので、 VideoLLMsはより効率的に推論機能を利用することができる。
M-DPOは、ビデオLLMを評価指標と整合させ、メトリクスに整合した各タスクに対してきめ細かい監督を提供する。
VidChainは、2つの異なるDVCベンチマークと時間的ビデオグラウンドタスクにおいて、ビデオLLMよりも優れたパフォーマンスを実現している。
コードは \url{https://github.com/mlvlab/VidChain} で入手できる。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T22:46:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。