論文の概要: DISCODE: Distribution-Aware Score Decoder for Robust Automatic Evaluation of Image Captioning
- arxiv url: http://arxiv.org/abs/2512.14420v1
- Date: Tue, 16 Dec 2025 14:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.73793
- Title: DISCODE: Distribution-Aware Score Decoder for Robust Automatic Evaluation of Image Captioning
- Title(参考訳): DISCODE:画像キャプションのロバスト自動評価のための分散対応スコアデコーダ
- Authors: Nakamasa Inoue, Kanoko Goto, Masanari Oi, Martyna Gruszka, Mahiro Ukai, Takumi Hirose, Yusuke Sekikawa,
- Abstract要約: 大規模視覚言語モデル (LVLM) は、幅広いマルチモーダルタスクにおいて印象的な性能を示している。
本研究では,ロバストな評価スコアを生成する新しいファインタニングフリー手法であるDis Distribution-Aware Score Decoder (DISCODE)を紹介する。
本研究では,DECODEが参照不要評価指標として最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 22.541665746109285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) have shown impressive performance across a broad range of multimodal tasks. However, robust image caption evaluation using LVLMs remains challenging, particularly under domain-shift scenarios. To address this issue, we introduce the Distribution-Aware Score Decoder (DISCODE), a novel finetuning-free method that generates robust evaluation scores better aligned with human judgments across diverse domains. The core idea behind DISCODE lies in its test-time adaptive evaluation approach, which introduces the Adaptive Test-Time (ATT) loss, leveraging a Gaussian prior distribution to improve robustness in evaluation score estimation. This loss is efficiently minimized at test time using an analytical solution that we derive. Furthermore, we introduce the Multi-domain Caption Evaluation (MCEval) benchmark, a new image captioning evaluation benchmark covering six distinct domains, designed to assess the robustness of evaluation metrics. In our experiments, we demonstrate that DISCODE achieves state-of-the-art performance as a reference-free evaluation metric across MCEval and four representative existing benchmarks.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は、幅広いマルチモーダルタスクで顕著な性能を示している。
しかし,LVLMを用いたロバスト画像キャプション評価は,特にドメインシフトシナリオ下では困難である。
この問題に対処するために,多分野にわたる人的判断に適合するロバストな評価スコアを生成する新しいファインタニングフリー手法であるDis Distribution-Aware Score Decoder (DISCODE) を導入する。
DISCODEの背後にある中核的な考え方は、テスト時間適応評価アプローチにある。これは、アダプティブテスト時間(ATT)損失を導入し、ガウスの事前分布を活用して評価スコア推定の堅牢性を改善する。
この損失は、我々が引き起こす分析解を用いて、テスト時に効率的に最小化される。
さらに、評価指標の堅牢性を評価するために、6つの異なる領域をカバーする新しい画像キャプション評価ベンチマークであるマルチドメインキャプション評価(MCEval)ベンチマークを導入する。
本実験では,MCEvalおよび4つの既存ベンチマークを対象とした基準フリー評価指標として,DECODEが最先端性能を達成できることを実証した。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization [64.95852289011385]
大規模言語モデル(LLM)は拡大を続けており、様々な下流タスクのパフォーマンスは大幅に改善されている。
多数のベンチマークサンプルで推論を行うと、高い計算コストが発生するため、それらの能力を評価するのがますます高価になっている。
SparseEvalは,アンカーウェイトを最適化する勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用する手法である。
論文 参考訳(メタデータ) (2026-02-08T11:12:45Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs [29.764833226591012]
本稿では,大規模言語モデル(LLM)の検証と費用対効果評価フレームワークを提案する。
テストサンプル複雑性'を用いて、認定された評価に必要なテストポイント数を定量化し、テストサンプル複雑性の厳密な境界を導出します。
開発した理論に基づいて,LLM評価のコストを最小限に抑えるために,テストポイントを適応的に選択する分割型アルゴリズムCer-Evalを開発した。
論文 参考訳(メタデータ) (2025-05-02T17:05:01Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。