論文の概要: LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences
- arxiv url: http://arxiv.org/abs/2507.19362v1
- Date: Fri, 25 Jul 2025 15:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.01295
- Title: LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences
- Title(参考訳): LOTUS: 品質から社会的なバイアス、ユーザの嗜好まで、詳細なイメージキャプションのためのリーダーボード
- Authors: Yusuke Hirota, Boyi Li, Ryo Hachiuma, Yueh-Hua Wu, Boris Ivanovic, Yuta Nakashima, Marco Pavone, Yejin Choi, Yu-Chiang Frank Wang, Chao-Han Huck Yang,
- Abstract要約: LOTUSは詳細なキャプションを評価するためのリーダーボードである。
キャプションの品質など、様々な側面を包括的に評価する。
多様なユーザの嗜好に基準を合わせることで、嗜好指向の評価を可能にする。
- 参考スコア(独自算出の注目度): 91.13704541413551
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have transformed image captioning, shifting from concise captions to detailed descriptions. We introduce LOTUS, a leaderboard for evaluating detailed captions, addressing three main gaps in existing evaluations: lack of standardized criteria, bias-aware assessments, and user preference considerations. LOTUS comprehensively evaluates various aspects, including caption quality (e.g., alignment, descriptiveness), risks (\eg, hallucination), and societal biases (e.g., gender bias) while enabling preference-oriented evaluations by tailoring criteria to diverse user preferences. Our analysis of recent LVLMs reveals no single model excels across all criteria, while correlations emerge between caption detail and bias risks. Preference-oriented evaluations demonstrate that optimal model selection depends on user priorities.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は画像キャプションを簡潔なキャプションから詳細な説明に変更した。
既存の評価において,標準基準の欠如,バイアス認識評価,ユーザの嗜好の3つの主要なギャップに対処する,詳細なキャプションを評価するためのリーダーボードであるLOTUSを紹介する。
LOTUSは、キャプションの品質(例えば、アライメント、記述性)、リスク(偏見、幻覚)、社会的バイアス(例えば、性別バイアス)など、様々な側面を包括的に評価すると同時に、基準を多様なユーザの好みに合わせることで、嗜好指向の評価を可能にする。
近年のLVLMの分析では,全ての基準において単一のモデルが排他的でないことが明らかとなり,キャプションの細部とバイアスリスクとの間には相関が生じる。
嗜好指向の評価は、最適なモデル選択がユーザの優先順位に依存することを示す。
関連論文リスト
- Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Evaluating Image Caption via Cycle-consistent Text-to-Image Generation [24.455344211552692]
画像キャプションモデルのための参照不要自動評価指標であるCAMScoreを提案する。
上記のモダリティギャップを回避するため、CAMScoreはテキスト・ツー・イメージ・モデルを用いてキャプションから画像を生成し、生成した画像を元の画像に対して評価する。
実験結果から,CAMScoreは既存の基準ベースおよび基準フリー指標と比較して,人間の判断との相関が良好であることがわかった。
論文 参考訳(メタデータ) (2025-01-07T06:35:34Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - CFaiRLLM: Consumer Fairness Evaluation in Large-Language Model Recommender System [16.84754752395103]
本研究は,Large Language Model (LLM) ベースのレコメンデータシステムにおける公平性評価に関する過去の研究に批判的な立場を取る。
CFaiRLLMは、真の嗜好アライメントを組み込むだけでなく、交叉フェアネスを厳格に検証する拡張評価フレームワークである。
CFaiRLLMの有効性を検証するため,MovieLensとLastFMを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-08T20:44:59Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。