論文の概要: Context Matters for Image Descriptions for Accessibility: Challenges for
Referenceless Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2205.10646v1
- Date: Sat, 21 May 2022 17:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 10:51:12.932195
- Title: Context Matters for Image Descriptions for Accessibility: Challenges for
Referenceless Evaluation Metrics
- Title(参考訳): アクセシビリティのための画像記述の文脈--参照なし評価基準への挑戦
- Authors: Elisa Kreiss, Cynthia Bennett, Shayan Hooshmand, Eric Zelikman,
Meredith Ringel Morris, Christopher Potts
- Abstract要約: 我々は、視覚障害者(BLV)のニーズに合致しないという理由で、現在の基準のない指標に反対している。
詳細な分析では、文脈認識の欠如が、現在の参照レスメトリクスが画像のアクセシビリティ向上に不適であることを明らかにしている。
- 参考スコア(独自算出の注目度): 17.425211432886403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few images on the Web receive alt-text descriptions that would make them
accessible to blind and low vision (BLV) users. Image-based NLG systems have
progressed to the point where they can begin to address this persistent
societal problem, but these systems will not be fully successful unless we
evaluate them on metrics that guide their development correctly. Here, we argue
against current referenceless metrics -- those that don't rely on
human-generated ground-truth descriptions -- on the grounds that they do not
align with the needs of BLV users. The fundamental shortcoming of these metrics
is that they cannot take context into account, whereas contextual information
is highly valued by BLV users. To substantiate these claims, we present a study
with BLV participants who rated descriptions along a variety of dimensions. An
in-depth analysis reveals that the lack of context-awareness makes current
referenceless metrics inadequate for advancing image accessibility, requiring a
rethinking of referenceless evaluation metrics for image-based NLG systems.
- Abstract(参考訳): Web上の画像はほとんどなく、視覚障害者(BLV)にアクセスできるようなalt-text記述が受けられる。
画像ベースNLGシステムは、この永続的な社会問題に対処し始めるまで進歩してきたが、これらのシステムは、彼らの開発を正しく導く指標で評価しない限り、完全には成功しない。
ここでは、BLVユーザのニーズに合致しないという理由から、現在の参照なしメトリクス -- 人為的な地道的な記述に依存しないもの -- を論じる。
これらの指標の根本的な欠点は、コンテキストを考慮に入れることができないのに対して、コンテキスト情報はBLVユーザによって高く評価されている点である。
これらの主張を裏付けるために,様々な次元で記述を評定するblv参加者による研究を行った。
詳細な分析によると、文脈認識の欠如により、現在の参照レスメトリクスは画像アクセシビリティ向上に不適であり、画像ベースNLGシステムの参照レス評価メトリクスを再考する必要がある。
関連論文リスト
- Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Evaluating Image Review Ability of Vision Language Models [25.846728716526766]
本稿では,大規模視覚言語モデル(LVLM)を用いて画像のレビューテキストを生成する方法について検討する。
LVLMが画像のレビューを行う能力は完全には理解されておらず、レビュー能力の方法論的な評価の必要性が強調されている。
論文 参考訳(メタデータ) (2024-02-19T13:16:10Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Explaining CLIP's performance disparities on data from blind/low vision
users [7.622356036689562]
大型マルチモーダルモデル(LMM)は、視覚障害者(BLV)のための視覚支援の新たな時代を後押しする可能性を秘めている
しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。
ゼロショット分類タスクにおいて25のCLIP変種をテストし、その精度がWebcrawled画像よりもBLVユーザが取得した画像の平均15パーセント低いことを確認する。
論文 参考訳(メタデータ) (2023-11-29T02:10:31Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [9.397915483593323]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。