論文の概要: MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.20122v1
- Date: Mon, 26 May 2025 15:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.562499
- Title: MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models
- Title(参考訳): MEBench:視覚言語モデルにおける相互排他バイアスの理解のための新しいベンチマーク
- Authors: Anh Thai, Stefan Stojanov, Zixuan Huang, Bikram Boote, James M. Rehg,
- Abstract要約: 本稿では、相互排他性(ME)バイアスを評価するための新しいベンチマークであるMEBenchを紹介する。
従来のMEタスクとは異なり、MEBenchはさらに空間推論を取り入れ、より困難で現実的な評価設定を作成する。
本稿では,最新のビジョン言語モデル(VLM)の性能を,MEに基づく推論の重要な側面を捉える新しい評価指標を用いて評価する。
- 参考スコア(独自算出の注目度): 27.516184838635414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MEBench, a novel benchmark for evaluating mutual exclusivity (ME) bias, a cognitive phenomenon observed in children during word learning. Unlike traditional ME tasks, MEBench further incorporates spatial reasoning to create more challenging and realistic evaluation settings. We assess the performance of state-of-the-art vision-language models (VLMs) on this benchmark using novel evaluation metrics that capture key aspects of ME-based reasoning. To facilitate controlled experimentation, we also present a flexible and scalable data generation pipeline that supports the construction of diverse annotated scenes.
- Abstract(参考訳): 本稿では,言語学習における認知現象である相互排他性(ME)バイアスを評価するための新しいベンチマークであるMEBenchを紹介する。
従来のMEタスクとは異なり、MEBenchはさらに空間推論を取り入れ、より困難で現実的な評価設定を作成する。
本稿では,最新のビジョン言語モデル(VLM)の性能を,MEに基づく推論の重要な側面を捉える新しい評価指標を用いて評価する。
制御実験を容易にするため,多様なアノテートシーンの構築を支援するフレキシブルでスケーラブルなデータ生成パイプラインを提案する。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。
我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。
本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T09:19:42Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - MetricBERT: Text Representation Learning via Self-Supervised Triplet
Training [26.66640112616559]
MetricBERTは、よく定義された類似度メトリックにテキストを埋め込むことを学ぶ。
MetricBERTは最先端の代替品よりも優れており、時にはかなりの差がある。
論文 参考訳(メタデータ) (2022-08-13T09:52:58Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。