論文の概要: OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models
- arxiv url: http://arxiv.org/abs/2507.19262v1
- Date: Fri, 25 Jul 2025 13:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.97349
- Title: OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models
- Title(参考訳): OVFact:ロングキャプションモデルのためのオープンボキャブラリファクタリティの測定と改善
- Authors: Monika Wysoczańska, Shyamal Buch, Anurag Arnab, Cordelia Schmid,
- Abstract要約: 長字幕の字幕事実性を測定する新しい方法であるOV-Factを紹介する。
提案手法は,人間の判断との一致を改善し,同じ指標におけるキャプタネス(リコール)と事実精度の両方をキャプチャする。
従来のメトリクスとは異なり、参照不要なメソッド設計は、ファクトリティベースのデータフィルタリングに向けた新しいアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 65.8015696586307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) often struggle to generate long and factual captions. However, traditional measures for hallucination and factuality are not well suited for evaluating longer, more diverse captions and in settings where ground-truth human-annotated captions are unavailable. We introduce OV-Fact, a novel method for measuring caption factuality of long captions that leverages open-vocabulary visual grounding and tool-based verification without depending on human annotations. Our method improves agreement with human judgments and captures both caption descriptiveness (recall) and factual precision in the same metric. Furthermore, unlike previous metrics, our reference-free method design enables new applications towards factuality-based data filtering. We observe models trained on an OVFact-filtered (2.5-5x less) subset of a large-scale, noisy (VLM-generated) pretraining set meaningfully improve factuality precision without sacrificing caption descriptiveness across a range of downstream long caption benchmarks.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、しばしば長文と実文のキャプションを生成するのに苦労する。
しかし、従来の幻覚と事実性の尺度は、より長い多彩なキャプションの評価にはあまり適していない。
OV-Factは、人間のアノテーションに依存しないオープン語彙の視覚的接地とツールベースの検証を活用する、長いキャプションのキャプションの事実性を測定する新しい方法である。
提案手法は,人間の判断との一致を改善し,同じ指標におけるキャプション記述性(リコール)と事実精度の両方をキャプチャする。
さらに, 従来の指標と異なり, 参照不要な手法設計により, ファクトリティに基づくデータフィルタリングへの新たな応用が可能になる。
我々は,OVFact-filtered (2.5-5x) サブセットでトレーニングされたVLMプリトレーニングセットのモデルを観察し,下流の長いベンチマークでキャプション記述性を犠牲にすることなく,実写精度を有意に向上させる。
関連論文リスト
- Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness [30.44039177018447]
CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。
我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
論文 参考訳(メタデータ) (2025-02-19T07:55:51Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。
KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。
以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-11-13T20:50:04Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。