論文の概要: LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.02341v1
- Date: Mon, 02 Feb 2026 17:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.312115
- Title: LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
- Title(参考訳): LongVPO: ロングフォームビデオ参照最適化のためのアンコールキューからセルフ推論へ
- Authors: Zhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang,
- Abstract要約: LongVPOは、視覚コンテキストモデルで、長いビデオアノテーションを使わずに、超長い動画を堅牢に理解することを可能にするフレームワークである。
合成サンプルは16Kで、人為的なラベルはないが、LongVPOは複数のロングビデオベンチマークで最先端のオープンソースモデルを上回っている。
- 参考スコア(独自算出の注目度): 20.692871849527815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LongVPO, a novel two-stage Direct Preference Optimization framework that enables short-context vision-language models to robustly understand ultra-long videos without any long-video annotations. In Stage 1, we synthesize preference triples by anchoring questions to individual short clips, interleaving them with distractors, and applying visual-similarity and question-specificity filtering to mitigate positional bias and ensure unambiguous supervision. We also approximate the reference model's scoring over long contexts by evaluating only the anchor clip, reducing computational overhead. In Stage 2, we employ a recursive captioning pipeline on long videos to generate scene-level metadata, then use a large language model to craft multi-segment reasoning queries and dispreferred responses, aligning the model's preferences through multi-segment reasoning tasks. With only 16K synthetic examples and no costly human labels, LongVPO outperforms the state-of-the-art open-source models on multiple long-video benchmarks, while maintaining strong short-video performance (e.g., on MVBench), offering a scalable paradigm for efficient long-form video understanding.
- Abstract(参考訳): 本稿では,LongVPOについて紹介する。LongVPOは2段階の直接参照最適化フレームワークで,短文の視覚言語モデルを用いて,長ビデオアノテーションを使わずに,超長ビデオの堅牢な理解を可能にする。
ステージ1では、個別のショートクリップに質問を固定し、邪魔者をインターリーブし、視覚的相似性と質問固有性フィルタリングを適用して、位置バイアスを緩和し、曖昧な監視を確保することで、好みのトリプルを合成する。
また,アンカークリップのみを評価することで,参照モデルの長期的評価を近似し,計算オーバーヘッドを低減した。
ステージ2では、シーンレベルのメタデータを生成するために長いビデオに再帰的なキャプションパイプラインを使用し、次に大きな言語モデルを使用して、マルチセグメント推論クエリと非参照応答を作成し、マルチセグメント推論タスクを通じてモデルの好みを調整する。
たった16Kの合成例と費用のかかるラベルがないLongVPOは、複数の長ビデオベンチマークで最先端のオープンソースモデルよりも優れており、強力なショートビデオパフォーマンス(例えばMVBench)を維持し、効率的な長ビデオ理解のためのスケーラブルなパラダイムを提供する。
関連論文リスト
- From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。