論文の概要: IF-VidCap: Can Video Caption Models Follow Instructions?
- arxiv url: http://arxiv.org/abs/2510.18726v1
- Date: Tue, 21 Oct 2025 15:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.82661
- Title: IF-VidCap: Can Video Caption Models Follow Instructions?
- Title(参考訳): IF-VidCap:ビデオキャプションモデルは命令をフォローできるか?
- Authors: Shihao Li, Yuanxing Zhang, Jiangtao Wu, Zhide Lei, Yiwen He, Runzhe Wen, Chenxi Liao, Chengkang Jiang, An Ping, Shuo Gao, Suhan Wang, Zhaozhou Bian, Zijun Zhou, Jingyi Xie, Jiayi Zhou, Jing Wang, Yifan Yao, Weihao Xie, Yingshui Tan, Yanghai Wang, Qianqian Xie, Zhaoxiang Zhang, Jiaheng Liu,
- Abstract要約: 制御可能なビデオキャプションを評価するための新しいベンチマークであるIF-VidCapを紹介する。
IF-VidCapには、フォーマットの正しさとコンテンツの正しさの2つの側面でキャプションを評価する、体系的なフレームワークが組み込まれている。
- 参考スコア(独自算出の注目度): 44.2412700621584
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have demonstrated proficiency in video captioning, practical applications require captions that follow specific user instructions rather than generating exhaustive, unconstrained descriptions. Current benchmarks, however, primarily assess descriptive comprehensiveness while largely overlooking instruction-following capabilities. To address this gap, we introduce IF-VidCap, a new benchmark for evaluating controllable video captioning, which contains 1,400 high-quality samples. Distinct from existing video captioning or general instruction-following benchmarks, IF-VidCap incorporates a systematic framework that assesses captions on two dimensions: format correctness and content correctness. Our comprehensive evaluation of over 20 prominent models reveals a nuanced landscape: despite the continued dominance of proprietary models, the performance gap is closing, with top-tier open-source solutions now achieving near-parity. Furthermore, we find that models specialized for dense captioning underperform general-purpose MLLMs on complex instructions, indicating that future work should simultaneously advance both descriptive richness and instruction-following fidelity.
- Abstract(参考訳): MLLM (Multimodal Large Language Models) はビデオキャプションの習熟度を示しているが、実際の応用では、抜本的で制約のない記述を生成するのではなく、特定のユーザ命令に従うキャプションを必要とする。
しかし、現在のベンチマークは主に記述的包括性を評価し、主に命令追従能力を見落としている。
このギャップに対処するため、制御可能なビデオキャプションの評価のための新しいベンチマークIF-VidCapを導入し、1,400の高品質なサンプルを含む。
IF-VidCapは既存のビデオキャプションや一般的なインストラクションフォローベンチマークとは違い、フォーマットの正しさとコンテンツの正しさという2つの側面でキャプションを評価するための体系的なフレームワークを組み込んでいる。
プロプライエタリなモデルの支配が続いているにもかかわらず、パフォーマンスのギャップは閉ざされ、トップレベルのオープンソースソリューションがほぼパーパリティに達しています。
さらに, 高密度キャプションに特化しているモデルでは, 複雑な命令に対して汎用MLLMを過小評価しており, 今後の作業は記述的豊かさと指示追従忠実さの両方を同時に進めるべきであることを示す。
関連論文リスト
- Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。
現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。
包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文 参考訳(メタデータ) (2025-03-31T17:59:01Z) - CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness [30.44039177018447]
CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。
我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
論文 参考訳(メタデータ) (2025-02-19T07:55:51Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。