論文の概要: Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.21337v1
- Date: Wed, 24 Dec 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.856717
- Title: Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models
- Title(参考訳): Beyond Memorization: ビジョンランゲージモデルで人気のバイアスを抽出するためのマルチモーダル順序回帰ベンチマーク
- Authors: Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, He Syu, Yu-Lun Liu,
- Abstract要約: このタスクの最大のオープンベンチマークを紹介する: YearGuessrデータセットは157カ国のマルチモーダル属性を持つ55,546のイメージで構成されている。
我々は,建設年度予測タスクを規則的回帰とみなし,このバイアスを定量化するために人気を考慮した区間精度指標を導入する。
その結果、YearCLIPモデルを含む30モデル以上のベンチマークの結果、VLMは一般的な記憶アイテムに優れるが、未認識の被験者と大きな差はないことが確認された。
- 参考スコア(独自算出の注目度): 4.311291722294633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We expose a significant popularity bias in state-of-the-art vision-language models (VLMs), which achieve up to 34% higher accuracy on famous buildings compared to ordinary ones, indicating a reliance on memorization over generalizable understanding. To systematically investigate this, we introduce the largest open benchmark for this task: the YearGuessr dataset, a collection of 55,546 building images with multi-modal attributes from 157 countries, annotated with continuous ordinal labels of their construction year (1001-2024), GPS data, and page-view counts as a proxy for popularity. Using this dataset, we frame the construction year prediction task as ordinal regression and introduce popularity-aware interval accuracy metrics to quantify this bias. Our resulting benchmark of 30+ models, including our YearCLIP model, confirms that VLMs excel on popular, memorized items but struggle significantly with unrecognized subjects, exposing a critical flaw in their reasoning capabilities. Project page: https://sytwu.github.io/BeyondMemo/
- Abstract(参考訳): 我々は、最先端の視覚言語モデル(VLM)において、一般的な建物に比べて最大34%高い精度を達成し、一般的な理解よりも記憶に頼っていることを示す顕著な人気バイアスを明らかにした。
この課題を体系的に調査するために,157か国から55,546件の画像を収集したYearGuessrデータセット,建設年(1001~2024年)の連続した順序ラベルを付加した注釈付き画像,GPSデータ,ページビュー数などを作成した。
このデータセットを用いて、建設年度予測タスクを順序回帰として構成し、このバイアスを定量化するために人気を考慮した間隔精度指標を導入する。
われわれのYearCLIPモデルを含む30モデル以上のベンチマークの結果、VLMは一般的な記憶アイテムに優れるが、未認識の被験者とかなり苦労し、その推論能力に重大な欠陥を露呈していることを確認した。
プロジェクトページ: https://sytwu.github.io/BeyondMemo/
関連論文リスト
- GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - UniPredict: Large Language Models are Universal Tabular Classifiers [33.811778526930745]
本稿では、生成モデル、すなわちUniPredictに基づいて、普遍的な表型データ予測器を構築するというアイデアを活用する。
多様なターゲットを持つ169データセットのアグリゲーション上で1つのLLMをトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。
我々は、この汎用UniPredictモデルは、最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。
論文 参考訳(メタデータ) (2023-10-05T02:37:09Z) - Does Progress On Object Recognition Benchmarks Improve Real-World
Generalization? [9.906591021385303]
ImageNet-A、-C、-Rのようなイメージネットベースの一般化ベンチマークでは、10年以上オブジェクト認識の進歩が測定されている。
膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。
本研究では,世界各国の家庭から得られた2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理横断の一般化について検討する。
論文 参考訳(メタデータ) (2023-07-24T21:29:48Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。