論文の概要: "It's trained by non-disabled people": Evaluating How Image Quality Affects Product Captioning with VLMs
- arxiv url: http://arxiv.org/abs/2511.08917v1
- Date: Thu, 13 Nov 2025 01:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.299162
- Title: "It's trained by non-disabled people": Evaluating How Image Quality Affects Product Captioning with VLMs
- Title(参考訳): 障害者の訓練」:VLMによる製品キャプションの画質への影響評価
- Authors: Kapil Garg, Xinru Tang, Jimin Heo, Dwayne R. Morgan, Darren Gergle, Erik B. Sudderth, Anne Marie Piper,
- Abstract要約: VLM(Vision-Language Models)は、視覚障害者や低視野者(BLV)によって日々の生活の中で製品を特定し、理解するために使われるようになっている。
その流行にもかかわらず、画像品質の一般的な問題(ぼやけやミスフレーミングなど)がVLM生成キャプションの精度にどのように影響するか、実証的な理解が欠けている。
画像中の製品を認識する最良のモデルでは,98%の精度で品質問題がないが,品質問題が存在する場合には全体の75%の精度に低下することを示す。
- 参考スコア(独自算出の注目度): 17.42716500997135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly used by blind and low-vision (BLV) people to identify and understand products in their everyday lives, such as food, personal products, and household goods. Despite their prevalence, we lack an empirical understanding of how common image quality issues, like blur and misframing of items, affect the accuracy of VLM-generated captions and whether resulting captions meet BLV people's information needs. Grounded in a survey with 86 BLV people, we systematically evaluate how image quality issues affect captions generated by VLMs. We show that the best model recognizes products in images with no quality issues with 98% accuracy, but drops to 75% accuracy overall when quality issues are present, worsening considerably as issues compound. We discuss the need for model evaluations that center on disabled people's experiences throughout the process and offer concrete recommendations for HCI and ML researchers to make VLMs more reliable for BLV people.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚障害者や低視野者(BLV)によって、食べ物、個人製品、家庭用品などの日常生活における商品を識別し、理解するために使われるようになっている。
これらの傾向にもかかわらず、画像品質の一般的な問題、例えば、ぼやけや誤解といった問題は、VLM生成キャプションの精度や、その結果のキャプションがBLVの人々の情報ニーズに合致するかどうかを実証的に理解することができない。
画像品質の問題がVLMの生成するキャプションにどう影響するかを系統的に評価した。
画像中の商品を98%の精度で認識するが,品質問題が発生した場合には全体の75%の精度に低下し,課題が複雑化するにつれて著しく悪化することを示す。
プロセスを通して障害者の体験に焦点を当てたモデル評価の必要性を論じ,HCIとMLの研究者がBLVの人々に対してVLMをより信頼性の高いものにするための具体的な勧告を提示する。
関連論文リスト
- Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - How Blind and Low-Vision Individuals Prefer Large Vision-Language Model-Generated Scene Descriptions [38.22472823480205]
LVLM(Large Vision-Language Models)はシーン記述の生成を約束するが,BLVユーザに対する有効性は未定である。
8人のBLV参加者とユーザスタディを行い、6種類のLVLM記述の好みを体系的に評価した。
彼らは恐怖を減らし、行動可能性を向上させるのに役立ったが、ユーザーの評価は、満足度と簡潔さの幅広いバリエーションを示した。
論文 参考訳(メタデータ) (2025-02-15T10:17:52Z) - Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。
KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。
以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-11-13T20:50:04Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z) - Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts [23.97104853350071]
いくつかの主流視覚言語モデル(LVLM)における両眼的公正性について実験的に検討する。
我々の公正度評価フレームワークは、視覚的質問応答/分類タスクにおいて、直接的および単選択的な質問プロンプトを用いている。
我々は,オープンソースとクローズドソースの両方のLVLMに適用可能な,不公平性軽減のためのマルチモーダル・チェーン・オブ・思想(CoT)に基づく戦略を提案する。
論文 参考訳(メタデータ) (2024-06-25T23:11:39Z) - IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models [23.99102775778499]
本稿では,画像品質評価システムIQAGPTを紹介する。
トレーニングと評価のためのCT-IQAデータセットを構築した。
LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
論文 参考訳(メタデータ) (2023-12-25T09:13:18Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。