論文の概要: Context Matters for Image Descriptions for Accessibility: Challenges for
Referenceless Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2205.10646v1
- Date: Sat, 21 May 2022 17:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 10:51:12.932195
- Title: Context Matters for Image Descriptions for Accessibility: Challenges for
Referenceless Evaluation Metrics
- Title(参考訳): アクセシビリティのための画像記述の文脈--参照なし評価基準への挑戦
- Authors: Elisa Kreiss, Cynthia Bennett, Shayan Hooshmand, Eric Zelikman,
Meredith Ringel Morris, Christopher Potts
- Abstract要約: 我々は、視覚障害者(BLV)のニーズに合致しないという理由で、現在の基準のない指標に反対している。
詳細な分析では、文脈認識の欠如が、現在の参照レスメトリクスが画像のアクセシビリティ向上に不適であることを明らかにしている。
- 参考スコア(独自算出の注目度): 17.425211432886403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few images on the Web receive alt-text descriptions that would make them
accessible to blind and low vision (BLV) users. Image-based NLG systems have
progressed to the point where they can begin to address this persistent
societal problem, but these systems will not be fully successful unless we
evaluate them on metrics that guide their development correctly. Here, we argue
against current referenceless metrics -- those that don't rely on
human-generated ground-truth descriptions -- on the grounds that they do not
align with the needs of BLV users. The fundamental shortcoming of these metrics
is that they cannot take context into account, whereas contextual information
is highly valued by BLV users. To substantiate these claims, we present a study
with BLV participants who rated descriptions along a variety of dimensions. An
in-depth analysis reveals that the lack of context-awareness makes current
referenceless metrics inadequate for advancing image accessibility, requiring a
rethinking of referenceless evaluation metrics for image-based NLG systems.
- Abstract(参考訳): Web上の画像はほとんどなく、視覚障害者(BLV)にアクセスできるようなalt-text記述が受けられる。
画像ベースNLGシステムは、この永続的な社会問題に対処し始めるまで進歩してきたが、これらのシステムは、彼らの開発を正しく導く指標で評価しない限り、完全には成功しない。
ここでは、BLVユーザのニーズに合致しないという理由から、現在の参照なしメトリクス -- 人為的な地道的な記述に依存しないもの -- を論じる。
これらの指標の根本的な欠点は、コンテキストを考慮に入れることができないのに対して、コンテキスト情報はBLVユーザによって高く評価されている点である。
これらの主張を裏付けるために,様々な次元で記述を評定するblv参加者による研究を行った。
詳細な分析によると、文脈認識の欠如により、現在の参照レスメトリクスは画像アクセシビリティ向上に不適であり、画像ベースNLGシステムの参照レス評価メトリクスを再考する必要がある。
関連論文リスト
- On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Explaining CLIP's performance disparities on data from blind/low vision users [5.4683423620489755]
大型マルチモーダルモデル(LMM)は、視覚障害者(BLV)のための視覚支援の新たな時代を後押しする可能性を秘めている
しかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。
ゼロショット分類タスクにおいて25のCLIP変種をテストし、その精度がWebcrawled画像よりもBLVユーザが取得した画像の平均15パーセント低いことを確認する。
論文 参考訳(メタデータ) (2023-11-29T02:10:31Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Agnostic Visual Recommendation Systems: Open Challenges and Future Directions [4.922572106422333]
ビジュアライゼーション・レコメンデーション・システム(VRS)は、データから洞察に富んだ可視化を作成することを目的とした、新しくて挑戦的な研究分野である。
人間が提供する制約やルールに頼らず、自律的にタスクを学習しようとするため、私たちはVRSを"認識的"と表現します。
本稿では,VRSに関する文献を要約し,今後の研究の方向性について概説する。
論文 参考訳(メタデータ) (2023-02-01T16:44:39Z) - CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。
複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。
また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文 参考訳(メタデータ) (2021-04-18T05:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。