論文の概要: VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection
- arxiv url: http://arxiv.org/abs/2511.19436v1
- Date: Mon, 24 Nov 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.390495
- Title: VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection
- Title(参考訳): VDC-Agent: エージェント・セルフ・リフレクションによるビデオのキャプションがテーマを進化させるとき
- Authors: Qiang Wang, Xinyuan Gao, SongLin Dong, Jizhou Han, Jiangyang Li, Yuhang He, Yihong Gong,
- Abstract要約: VDC-AgentはDetailed Captioningのための自己進化フレームワークである。
VDC-Agent-7Bは、VDCベンチマークで最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 49.17822187252066
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present VDC-Agent, a self-evolving framework for Video Detailed Captioning that requires neither human annotations nor larger teacher models. The agent forms a closed loop of caption generation, principle-guided scoring (score and textual suggestions), and prompt refinement. When caption quality regresses, a self-reflection path leverages the previous chain-of-thought to amend the update. Running this process on unlabeled videos produces trajectories of (caption, score) pairs. We convert the trajectories into preference tuples and filter out samples with JSON parsing errors, resulting in VDC-Agent-19K, which contains 18,886 automatically constructed pairs. We then fine-tune the base MLLM on this dataset using an easy-to-hard curriculum direct preference optimization. Built on Qwen2.5-VL-7B-Instruct, our VDC-Agent-7B attains state-of-the-art performance on the VDC benchmark with 49.08% average accuracy and 2.50 score, surpassing specialized video captioners and improving over the base model by +5.13% accuracy and +0.27 score at similar inference cost.
- Abstract(参考訳): 我々は、人間のアノテーションやより大きな教師モデルを必要としないビデオ詳細キャプションのための自己進化フレームワークであるVDC-Agentを紹介する。
エージェントはキャプションの生成、原則誘導スコア(スコアとテキストの提案)のクローズドループを形成し、改善を促す。
キャプションの品質が低下すると、自己回帰パスは以前のチェーン・オブ・シントを利用して更新を修正します。
このプロセスをラベルなしのビデオで実行すると、(カプセル、スコア)ペアの軌跡が生成される。
トラジェクトリを好みのタプルに変換し、JSON解析エラーでサンプルをフィルタリングし、VDC-Agent-19Kは18,886個のペアを自動構築する。
次に、このデータセット上で基本MLLMを微調整する。
Qwen2.5-VL-7B-Instructで構築されたVDC-Agent-7Bは、VDCベンチマークで49.08%の平均精度と2.50スコアで最先端のパフォーマンスを達成し、特別なビデオキャプタを上回り、ベースモデルを+5.13%の精度で、+0.27のスコアで改善した。
関連論文リスト
- VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos [62.29924199978745]
VideoAgentTrekは、Webスケールで公開されているスクリーン録画ビデオからトレーニングデータを自動的にマイニングするスケーラブルなパイプラインである。
生のビデオには暗黙のデモが含まれているが、明示的なアクションラベルがない。
39,000のYouTubeチュートリアルビデオに適用されたパイプラインは、自動的に1250万のインタラクションステップを生成します。
論文 参考訳(メタデータ) (2025-10-22T11:25:48Z) - AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。
そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。
LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文 参考訳(メタデータ) (2025-07-02T08:51:45Z) - VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは、ビデオ-LLMが外部の監督なしにビデオコンテンツから学ぶことができる自己学習パイプラインである。
我々のアプローチは、モデルの初期応答における推論エラーを識別する自己記述機構を含む。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。