論文の概要: BEiTScore: Reference-free Image Captioning Evaluation with an Efficient Cross-Encoder Model
- arxiv url: http://arxiv.org/abs/2605.21728v1
- Date: Wed, 20 May 2026 20:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.992105
- Title: BEiTScore: Reference-free Image Captioning Evaluation with an Efficient Cross-Encoder Model
- Title(参考訳): BEiTScore:効率的なクロスエンコーダモデルによる参照不要画像キャプション評価
- Authors: Gonçalo Gomes, Bruno Martins, Chrysoula Zerva,
- Abstract要約: 最先端評価メトリクスは、審査員としてLarge Language Models (LLMs) を使用する際の計算コストの増大を伴う。
本稿では,視覚的質問応答モデルチェックポイントから生成する軽量なクロスエンコーダに基づく,上記の課題に対処する新たな学習指標を提案する。
本手法では, 教師あり学習において, モデル感度を高めるために, 逆LLMに基づくデータ拡張を特徴とし, 微粒な視覚言語的誤りに対するモデル感度の向上を図っている。
- 参考スコア(独自算出の注目度): 10.757627088489116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning evaluation remains a significant challenge, as vision-language models evolve toward more challenging capabilities such as generating long-form and context-rich descriptions. State-of-the-art evaluation metrics involve extensive computational costs associated with the use of Large Language Models (LLMs) as judges, or instead suffer from the limitations of standard CLIP-based encoders, such as strict token limits, lack of fine-grained sensitivity, or lack of compositional generalization by treating captions as ``bags-of-words.'' We propose a new learned metric that tackles the aforementioned challenges, based on a lightweight cross-encoder that is initialized from a visual question-answering model checkpoint, balancing a strong weight initialization with computational efficiency. Our training scheme uses a carefully assembled data mixture for supervised learning, featuring adversarial LLM-based data augmentations to enhance model sensitivity to fine-grained visual-linguistic errors. We also introduce a new benchmark designed to assess detailed captioning evaluation across diverse scenarios. Experimental results demonstrate that the proposed metric achieves state-of-the-art performance while maintaining the efficiency required for large-scale benchmarking, quality-aware decoding, or reward guidance.
- Abstract(参考訳): 画像キャプション評価は、長い形式や文脈に富んだ記述を生成するなど、視覚言語モデルがより困難な機能へと進化するにつれ、依然として大きな課題である。
最先端評価メトリクスは、裁判官としてのLarge Language Models (LLMs) の使用に関連する膨大な計算コストを伴い、代わりに、厳密なトークン制限、きめ細かな感度の欠如、またはキャプションを ``bags-of-words' として扱うことで構成的一般化の欠如など、標準のCLIPベースのエンコーダの制限に悩まされる。
そこで本稿では,視覚的質問応答モデルチェックポイントから初期化される軽量クロスエンコーダをベースとした,上記の課題に対処する新たな学習指標を提案する。
本手法では, 教師あり学習において, モデル感度を高めるために, 逆LLMに基づくデータ拡張を特徴とするデータ混合を用いて, きめ細かな視覚言語的誤りに対処する。
また,様々なシナリオにまたがって詳細なキャプション評価を行うためのベンチマークも導入した。
提案手法は,大規模ベンチマーク,品質認識復号化,報酬誘導に必要な効率を維持しつつ,最先端性能を実現することを示す。
関連論文リスト
- ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Explicit modelling of subject dependency in BCI decoding [12.17288254938554]
Brain-Computer Interfaces (BCI) は、高いオブジェクト間の変動とラベル付きデータに悩まされる。
被験者の身元を条件とした軽量畳み込みニューラルネットワーク(CNN)を用いて、対象の依存関係を明示的にモデル化するエンド・ツー・エンドのアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:51:42Z) - Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文 参考訳(メタデータ) (2025-05-29T09:50:56Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。