論文の概要: DISCODE: Distribution-Aware Score Decoder for Robust Automatic Evaluation of Image Captioning
- arxiv url: http://arxiv.org/abs/2512.14420v1
- Date: Tue, 16 Dec 2025 14:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.73793
- Title: DISCODE: Distribution-Aware Score Decoder for Robust Automatic Evaluation of Image Captioning
- Title(参考訳): DISCODE:画像キャプションのロバスト自動評価のための分散対応スコアデコーダ
- Authors: Nakamasa Inoue, Kanoko Goto, Masanari Oi, Martyna Gruszka, Mahiro Ukai, Takumi Hirose, Yusuke Sekikawa,
- Abstract要約: 大規模視覚言語モデル (LVLM) は、幅広いマルチモーダルタスクにおいて印象的な性能を示している。
本研究では,ロバストな評価スコアを生成する新しいファインタニングフリー手法であるDis Distribution-Aware Score Decoder (DISCODE)を紹介する。
本研究では,DECODEが参照不要評価指標として最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 22.541665746109285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) have shown impressive performance across a broad range of multimodal tasks. However, robust image caption evaluation using LVLMs remains challenging, particularly under domain-shift scenarios. To address this issue, we introduce the Distribution-Aware Score Decoder (DISCODE), a novel finetuning-free method that generates robust evaluation scores better aligned with human judgments across diverse domains. The core idea behind DISCODE lies in its test-time adaptive evaluation approach, which introduces the Adaptive Test-Time (ATT) loss, leveraging a Gaussian prior distribution to improve robustness in evaluation score estimation. This loss is efficiently minimized at test time using an analytical solution that we derive. Furthermore, we introduce the Multi-domain Caption Evaluation (MCEval) benchmark, a new image captioning evaluation benchmark covering six distinct domains, designed to assess the robustness of evaluation metrics. In our experiments, we demonstrate that DISCODE achieves state-of-the-art performance as a reference-free evaluation metric across MCEval and four representative existing benchmarks.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は、幅広いマルチモーダルタスクで顕著な性能を示している。
しかし,LVLMを用いたロバスト画像キャプション評価は,特にドメインシフトシナリオ下では困難である。
この問題に対処するために,多分野にわたる人的判断に適合するロバストな評価スコアを生成する新しいファインタニングフリー手法であるDis Distribution-Aware Score Decoder (DISCODE) を導入する。
DISCODEの背後にある中核的な考え方は、テスト時間適応評価アプローチにある。これは、アダプティブテスト時間(ATT)損失を導入し、ガウスの事前分布を活用して評価スコア推定の堅牢性を改善する。
この損失は、我々が引き起こす分析解を用いて、テスト時に効率的に最小化される。
さらに、評価指標の堅牢性を評価するために、6つの異なる領域をカバーする新しい画像キャプション評価ベンチマークであるマルチドメインキャプション評価(MCEval)ベンチマークを導入する。
本実験では,MCEvalおよび4つの既存ベンチマークを対象とした基準フリー評価指標として,DECODEが最先端性能を達成できることを実証した。
関連論文リスト
- Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。