Fugu-MT 論文翻訳(概要): Context Matters for Image Descriptions for Accessibility: Challenges for Referenceless Evaluation Metrics

論文の概要: Context Matters for Image Descriptions for Accessibility: Challenges for Referenceless Evaluation Metrics

arxiv url: http://arxiv.org/abs/2205.10646v1
Date: Sat, 21 May 2022 17:35:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-05 10:51:12.932195
Title: Context Matters for Image Descriptions for Accessibility: Challenges for Referenceless Evaluation Metrics
Title（参考訳）: アクセシビリティのための画像記述の文脈--参照なし評価基準への挑戦
Authors: Elisa Kreiss, Cynthia Bennett, Shayan Hooshmand, Eric Zelikman, Meredith Ringel Morris, Christopher Potts
Abstract要約: 我々は、視覚障害者(BLV)のニーズに合致しないという理由で、現在の基準のない指標に反対している。詳細な分析では、文脈認識の欠如が、現在の参照レスメトリクスが画像のアクセシビリティ向上に不適であることを明らかにしている。
参考スコア（独自算出の注目度）: 17.425211432886403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Few images on the Web receive alt-text descriptions that would make them accessible to blind and low vision (BLV) users. Image-based NLG systems have progressed to the point where they can begin to address this persistent societal problem, but these systems will not be fully successful unless we evaluate them on metrics that guide their development correctly. Here, we argue against current referenceless metrics -- those that don't rely on human-generated ground-truth descriptions -- on the grounds that they do not align with the needs of BLV users. The fundamental shortcoming of these metrics is that they cannot take context into account, whereas contextual information is highly valued by BLV users. To substantiate these claims, we present a study with BLV participants who rated descriptions along a variety of dimensions. An in-depth analysis reveals that the lack of context-awareness makes current referenceless metrics inadequate for advancing image accessibility, requiring a rethinking of referenceless evaluation metrics for image-based NLG systems.
Abstract（参考訳）: Web上の画像はほとんどなく、視覚障害者(BLV)にアクセスできるようなalt-text記述が受けられる。画像ベースNLGシステムは、この永続的な社会問題に対処し始めるまで進歩してきたが、これらのシステムは、彼らの開発を正しく導く指標で評価しない限り、完全には成功しない。ここでは、BLVユーザのニーズに合致しないという理由から、現在の参照なしメトリクス -- 人為的な地道的な記述に依存しないもの -- を論じる。これらの指標の根本的な欠点は、コンテキストを考慮に入れることができないのに対して、コンテキスト情報はBLVユーザによって高く評価されている点である。これらの主張を裏付けるために,様々な次元で記述を評定するblv参加者による研究を行った。詳細な分析によると、文脈認識の欠如により、現在の参照レスメトリクスは画像アクセシビリティ向上に不適であり、画像ベースNLGシステムの参照レス評価メトリクスを再考する必要がある。

関連論文リスト

Meaning Is Not A Metric: Using LLMs to make cultural context legible at scale [3.283323176831235]
我々は、大規模言語モデル(LLM)は、AIベースの社会技術システムにおいて前例のない規模で、文化的文脈、つまり人間の意味を作ることができると論じる。私たちはこれを、生成AIの適用にとって重要な方向として捉え、重要な5つの課題を特定します。
論文参考訳（メタデータ） (2025-05-23T04:10:42Z)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions [5.6629291915019975]
視覚言語モデル(VLM)が生み出す図形記述(ダイアグラム記述)を評価することを求める。 Sightationは、5kのダイアグラムと137kのサンプルからなるダイアグラム記述データセットのコレクションで、完成、選好、検索、質問応答、推論トレーニングの目的でリリースします。
論文参考訳（メタデータ） (2025-03-17T16:52:46Z)
Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T07:29:03Z)
On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。 Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文参考訳（メタデータ） (2024-09-05T09:10:38Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Explaining CLIP's performance disparities on data from blind/low vision users [5.4683423620489755]
大型マルチモーダルモデル(LMM)は、視覚障害者(BLV)のための視覚支援の新たな時代を後押しする可能性を秘めているしかし、これらのモデルはBLVユーザーが取得したデータに基づいて体系的に評価されていない。ゼロショット分類タスクにおいて25のCLIP変種をテストし、その精度がWebcrawled画像よりもBLVユーザが取得した画像の平均15パーセント低いことを確認する。
論文参考訳（メタデータ） (2023-11-29T02:10:31Z)
KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。 LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文参考訳（メタデータ） (2023-11-21T14:39:18Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Agnostic Visual Recommendation Systems: Open Challenges and Future Directions [4.922572106422333]
ビジュアライゼーション・レコメンデーション・システム(VRS)は、データから洞察に富んだ可視化を作成することを目的とした、新しくて挑戦的な研究分野である。人間が提供する制約やルールに頼らず、自律的にタスクを学習しようとするため、私たちはVRSを"認識的"と表現します。本稿では,VRSに関する文献を要約し,今後の研究の方向性について概説する。
論文参考訳（メタデータ） (2023-02-01T16:44:39Z)
CLIPScore: A Reference-free Evaluation Metric for Image Captioning [44.14502257230038]
Webから400M画像+キャプションペアにプリトレーニングされたクロスモーダルモデルであるCLIPは、参照を必要とせずに画像キャプションの堅牢な自動評価に使用できることを示しています。複数のコーポラにまたがる実験は、私たちの新しい基準なしメトリックであるCLIPScoreが人間の判断と最も高い相関を達成することを実証します。また、RefCLIPScoreという参照拡張版も提示し、さらに高い相関性を実現する。
論文参考訳（メタデータ） (2021-04-18T05:00:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。