論文の概要: Affordance Benchmark for MLLMs
- arxiv url: http://arxiv.org/abs/2506.00893v1
- Date: Sun, 01 Jun 2025 08:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.773024
- Title: Affordance Benchmark for MLLMs
- Title(参考訳): MLLMの精度ベンチマーク
- Authors: Junying Wang, Wenzhe Li, Yalun Wu, Yingji Liang, Yijin Guo, Chunyi Li, Haodong Duan, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: A4Benchはマルチモーダル大規模言語モデルの可視性を評価するために設計された新しいベンチマークである。
我々は17個のMLLM(9つのプロプライエタリと8つのオープンソース)を人的パフォーマンスに対して評価する。
プロプライエタリなモデルは一般的にオープンソースモデルよりも優れていますが、いずれも機能に制限があります。
- 参考スコア(独自算出の注目度): 38.62884479364572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance theory posits that environments inherently offer action possibilities that shape perception and behavior. While Multimodal Large Language Models (MLLMs) excel in vision-language tasks, their ability to perceive affordance, which is crucial for intuitive and safe interactions, remains underexplored. To address this, we introduce A4Bench, a novel benchmark designed to evaluate the affordance perception abilities of MLLMs across two dimensions: 1) Constitutive Affordance}, assessing understanding of inherent object properties through 1,282 question-answer pairs spanning nine sub-disciplines, and 2) Transformative Affordance, probing dynamic and contextual nuances (e.g., misleading, time-dependent, cultural, or individual-specific affordance) with 718 challenging question-answer pairs. Evaluating 17 MLLMs (nine proprietary and eight open-source) against human performance, we find that proprietary models generally outperform open-source counterparts, but all exhibit limited capabilities, particularly in transformative affordance perception. Furthermore, even top-performing models, such as Gemini-2.0-Pro (18.05% overall exact match accuracy), significantly lag behind human performance (best: 85.34%, worst: 81.25%). These findings highlight critical gaps in environmental understanding of MLLMs and provide a foundation for advancing AI systems toward more robust, context-aware interactions. The dataset is available in https://github.com/JunyingWang959/A4Bench/.
- Abstract(参考訳): Affordance理論は、環境が本質的に知覚と振る舞いを形作る行動可能性を提供すると仮定している。
MLLM(Multimodal Large Language Models)は視覚言語タスクに優れるが、直感的で安全な対話に欠かせない、手頃さを認識できる能力はいまだ研究されていない。
A4Benchは、MLLMの2次元における空き感能力を評価するために設計された新しいベンチマークである。
1)9つのサブ分野にまたがる1,282の質問応答対を通して固有の対象特性の理解を評価する構成的格言
2)718対の挑戦的質問対による、動的・文脈的ニュアンス(例えば、誤解を招く、時間依存する、文化的、または個人固有の価格)を探索するトランスフォーマティブ・アフォーマンス。
17個のMLLM(9つのプロプライエタリと8つのオープンソース)を人的パフォーマンスに対して評価すると、プロプライエタリなモデルは一般的にオープンソースよりも優れているが、いずれも限られた能力、特にトランスフォーメーション・アベイランスの知覚を示す。
さらに、Gemini-2.0-Pro (18.05%)のようなトップパフォーマンスモデルでさえ、人間のパフォーマンスよりもかなり遅れている(85.34%、最悪の81.25%)。
これらの知見は、MLLMの環境理解における重要なギャップを浮き彫りにし、より堅牢でコンテキスト対応なインタラクションに向けてAIシステムを前進させる基盤を提供する。
データセットはhttps://github.com/JunyingWang959/A4Bench/で公開されている。
関連論文リスト
- LR$^2$Bench: Evaluating Long-chain Reflective Reasoning Capabilities of Large Language Models via Constraint Satisfaction Problems [7.379503137362718]
我々はLong-chain Reflective Reasoning capabilities of Large Language Models (LLMs)を評価するために設計された新しいベンチマークLR$2$Benchを紹介する。
実験結果から,DeepSeek-R1やOpenAI o1-previewのような先進的な推論モデルでさえ,LR$2$Benchのタスクと競合することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T04:51:17Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。