論文の概要: VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
- arxiv url: http://arxiv.org/abs/2504.13122v1
- Date: Thu, 17 Apr 2025 17:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 17:18:40.201471
- Title: VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models
- Title(参考訳): VistaDPO:大規模ビデオモデルのためのビデオ階層型時空間直接参照最適化
- Authors: Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei,
- Abstract要約: ビデオ階層型空間-時間的直接参照最適化のためのフレームワークであるVistaDPOを紹介する。
VistaDPOは3つの階層レベルにまたがってテキストとビデオの好みのアライメントを強化する。
Video Hallucination、Video QA、Captioningパフォーマンスタスクなどのベンチマークの実験では、VistaDPOが既存のLVMのパフォーマンスを大幅に改善していることが示されている。
- 参考スコア(独自算出の注目度): 80.92928946973026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Video Models (LVMs) built upon Large Language Models (LLMs) have shown promise in video understanding but often suffer from misalignment with human intuition and video hallucination issues. To address these challenges, we introduce VistaDPO, a novel framework for Video Hierarchical Spatial-Temporal Direct Preference Optimization. VistaDPO enhances text-video preference alignment across three hierarchical levels: i) Instance Level, aligning overall video content with responses; ii) Temporal Level, aligning video temporal semantics with event descriptions; and iii) Perceptive Level, aligning spatial objects with language tokens. Given the lack of datasets for fine-grained video-language preference alignment, we construct VistaDPO-7k, a dataset of 7.2K QA pairs annotated with chosen and rejected responses, along with spatial-temporal grounding information such as timestamps, keyframes, and bounding boxes. Extensive experiments on benchmarks such as Video Hallucination, Video QA, and Captioning performance tasks demonstrate that VistaDPO significantly improves the performance of existing LVMs, effectively mitigating video-language misalignment and hallucination. The code and data are available at https://github.com/HaroldChen19/VistaDPO.
- Abstract(参考訳): LLM(Large Language Models)上に構築されたLVM(Large Video Models)は、ビデオ理解において有望であるが、人間の直感やビデオ幻覚の問題による誤認識に悩まされることが多い。
これらの課題に対処するため,ビデオ階層型空間-テンポラル直接参照最適化のための新しいフレームワークであるVistaDPOを紹介した。
VistaDPOは3つの階層レベルにまたがってテキスト・ビデオ・リクエストアライメントを強化する。
一 ビデオコンテンツ全体と応答を整合させるインスタンスレベル
二 映像の時間的意味を出来事記述と整合させる時間的水準
三 空間オブジェクトを言語トークンと整合させる知覚レベル
微粒なビデオ言語嗜好アライメントのためのデータセットが欠如していることを踏まえ,7.2K QAペアのアノテートされたデータセットであるVistaDPO-7kと,タイムスタンプやキーフレーム,バウンディングボックスなどの時空間グラウンド情報を構築した。
Video Hallucination, Video QA, Captioning Performance Taskなどのベンチマーク実験により、VistaDPOは既存のLVMのパフォーマンスを大幅に改善し、ビデオ言語の誤認識と幻覚を効果的に緩和することを示した。
コードとデータはhttps://github.com/HaroldChen19/VistaDPOで公開されている。
関連論文リスト
- VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment [0.6854849895338531]
ビデオ言語モデル(Video-LLMs)は、ビデオコンテンツを理解するのに優れているが、空間的関係、時間的順序付け、フレーム間の連続性に苦慮している。
対象の選好最適化を通じてビデオLLMを強化するフレームワークであるVideoPASTAを紹介する。
論文 参考訳(メタデータ) (2025-04-18T22:28:03Z) - PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning [50.81779197183613]
ビデオマルチモーダル大言語モデル(VLLM)における幻覚の低減を支援する直接選好最適化(DPO)
本稿では、嗜好アノテーションの不要なオンライン嗜好学習フレームワークであるVDPO(Video Direct Preference Optimization)を提案する。
本稿では,Prompt-aware Multi-instance Learning VDPOを提案する。
論文 参考訳(メタデータ) (2025-04-08T08:41:41Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。