論文の概要: Advancing Reference-free Evaluation of Video Captions with Factual Analysis
- arxiv url: http://arxiv.org/abs/2509.16538v1
- Date: Sat, 20 Sep 2025 05:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.844279
- Title: Advancing Reference-free Evaluation of Video Captions with Factual Analysis
- Title(参考訳): ファクト解析によるビデオキャプションの参照フリー評価の改善
- Authors: Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi,
- Abstract要約: 本稿では,レファレンスフリーかつ事実的根拠のない新しいキャプション品質評価器であるVC-Inspectorを紹介する。
提案手法は,VATEX-Evalデータセット上での人間の判断に優れた整合性を示し,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 11.012178413572066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captions offer concise snapshots of actors, objects, and actions within a video, serving as valuable assets for applications such as question answering and event localization. However, acquiring human annotations for video captions is costly or even impractical, especially when dealing with diverse video domains. Existing models trained on supervised datasets face challenges in evaluating performance across different domains due to the reliance on reference-based evaluation protocols, which necessitate ground truth captions. This assumption is unrealistic for evaluating videos in the wild. To address these limitations, we propose a reference-free evaluation framework that does not require ground truth captions, focusing on factual grounding to ensure accurate assessment of caption quality. We introduce VC-Inspector, a novel caption quality evaluator that is both reference-free and factually grounded. Utilizing large language models, we generate pseudo captions of varying quality based on supervised data, which are subsequently used to train a multimodal model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior alignment with human judgments on the VATEX-Eval dataset, outperforming existing methods. The performance also generalizes to image caption datasets, Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos. Overall, VC-Inspector offers a scalable and generalizable solution for evaluating the factual accuracy of video captions, paving the way for more effective and objective assessment methodologies in diverse video domains.
- Abstract(参考訳): ビデオキャプションは、ビデオ内のアクター、オブジェクト、アクションの簡潔なスナップショットを提供する。
しかし、ビデオキャプションに対する人間のアノテーションの取得は、特に多様なビデオドメインを扱う場合、費用がかかるか、実用的ではない。
教師付きデータセットでトレーニングされた既存のモデルは、基準ベースの評価プロトコルに依存するため、異なる領域にわたるパフォーマンスを評価する上で課題に直面している。
この仮定は、野生の動画を評価するには非現実的だ。
これらの制約に対処するため,本論文では,キャプションの品質を正確に評価するために,事実的根拠に焦点をあてて,真実のキャプションを必要としない参照フリー評価フレームワークを提案する。
本稿では,レファレンスフリーかつ事実的根拠のない新しいキャプション品質評価器であるVC-Inspectorを紹介する。
大規模言語モデルを用いて、教師付きデータに基づいて様々な品質の疑似キャプションを生成し、その後、マルチモーダルモデル(Qwen2.5-VL)を評価対象として訓練する。
提案手法は,VATEX-Evalデータセット上での人間の判断との整合性を向上し,既存の手法よりも優れていることを示す。
また、1フレームのビデオとして画像を見る際に、画像キャプションデータセット、Flickr8K-Expert、Flickr8K-CFを一般化する。
全体として、VC-Inspectorは、ビデオキャプションの実際の精度を評価するためのスケーラブルで一般化可能なソリューションを提供し、多様なビデオドメインにおいてより効果的で客観的な評価手法を提供する。
関連論文リスト
- AVC-DPO: Aligned Video Captioning via Direct Preference Optimization [50.08618093204503]
ビデオマルチモーダル大言語モデル(ビデオMLLM)は,ビデオキャプションタスクにおいて大きな進歩を遂げている。
そこで我々は,ビデオMLLMのキャプション機能を高めるために,AVC-DPO(Designed Video Captioning via Direct Preference Optimization)を提案する。
LOVE@PRCV'25 Workshop Track 1A: Video Detailed Captioning Challengeで、ビデオ詳細キャプションのベンチマークで1位を獲得しました。
論文 参考訳(メタデータ) (2025-07-02T08:51:45Z) - VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness [30.44039177018447]
CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。
我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
論文 参考訳(メタデータ) (2025-02-19T07:55:51Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Live Video Captioning [0.6291443816903801]
オンラインで動画ストリームにキャプションを生成しなければならないLive Video Captioning (LVC) という,画期的なパラダイムを紹介した。
我々は,LVCの新たな課題を正式に定義し,このオンラインシナリオに特化して設計された革新的な評価指標を提案する。
本稿では,変形可能な変換器と時間的フィルタリングを組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-06-20T11:25:16Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Perceptual Quality Assessment of Virtual Reality Videos in the Wild [53.94620993606658]
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。
我々は,2つの異なる視聴条件下で,139ドルの被験者から,スキャンパスと品質スコアを記録するための正式な心理物理実験を行った。
論文 参考訳(メタデータ) (2022-06-13T02:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。