論文の概要: ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2502.09696v1
- Date: Thu, 13 Feb 2025 18:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:00.042138
- Title: ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models
- Title(参考訳): ZeroBench: 現代の大規模マルチモーダルモデルのための不可能なビジュアルベンチマーク
- Authors: Jonathan Roberts, Mohammad Reza Taesiri, Ansh Sharma, Akash Gupta, Samuel Roberts, Ioana Croitoru, Simion-Vlad Bogolin, Jialu Tang, Florian Langer, Vyas Raina, Vatsal Raina, Hanyi Xiong, Vishaal Udandarao, Jingyi Lu, Shiyang Chen, Sam Purkis, Tianshuo Yan, Wenye Lin, Gyungin Shin, Qiaochu Yang, Anh Totti Nguyen, Kai Han, Samuel Albanie,
- Abstract要約: 大型マルチモーダルモデル(LMM)は、画像の解釈において大きな欠点を示し、いくつかの手段によっては、小さな子供や動物よりも空間認知が劣っている。
我々は,現代フロンティアLMMでは不可能な,軽量な視覚推論ベンチマークであるZeroBenchを紹介する。
ZeroBench 上で 20 LMM の評価を行い,そのスコアは 0.0% であり,誤差を厳密に分析した。
- 参考スコア(独自算出の注目度): 32.47500836337943
- License:
- Abstract: Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.
- Abstract(参考訳): 大型マルチモーダルモデル(LMM)は、画像の解釈において大きな欠点を示し、いくつかの手段によっては、小さな子供や動物よりも空間認知が劣っている。
それにもかかわらず、彼らは多くの人気のあるビジュアルベンチマークで高いスコアを獲得し、モデルの進歩が進行中であるために、ヘッドルームは急速に浸食された。
この問題に対処するためには、より長く関連性のある難しいベンチマークが必要である。
現代フロンティアLMMでは不可能な軽量な視覚推論ベンチマークであるZeroBenchを導入することで、この考え方を限界に達している。
私たちのベンチマークは、手作業による質問100件と、難しい質問334件で構成されています。
ZeroBench 上で 20 LMM の評価を行い,そのスコアは 0.0% であり,誤差を厳密に分析した。
視覚的理解の進歩を促進するため、ZeroBenchを公開しています。
関連論文リスト
- Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - R-Bench: Are your Large Multimodal Model Robust to Real-world Corruptions? [86.94616033250068]
R-Benchは、LMMs*の**実世界のロバストネスに焦点を当てたベンチマークである。
LMMは元の参照画像を正しく扱えるが、歪んだ画像に直面すると、その性能は安定しない。
我々は、R-BenchがLMMの堅牢性を改善し、*実験シミュレーションから*実世界のアプリケーションへ拡張することを願っている。
論文 参考訳(メタデータ) (2024-10-07T20:12:08Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Efficient Lifelong Model Evaluation in an Era of Rapid Progress [40.57576540258748]
S&S(Sort & Search, S&S)は, 動的プログラミングアルゴリズムを利用して, テストサンプルのランク付けとサブセレクションを行う。
S&Sは高い効率の近似精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間に削減し、近似誤差が低く、メモリコストは100MBである。
我々の研究は、現在の精度予測指標の問題を強調し、サンプルレベルの評価指標に移行する必要性を示唆している。
論文 参考訳(メタデータ) (2024-02-29T18:58:26Z) - Benchmarking Large Multimodal Models against Common Corruptions [45.26424202601339]
大規模マルチモーダルモデル(LMM)の評価における欠陥を補うことを目的とした技術報告
テキスト,画像,音声間の相互モーダルな相互作用について検討し,本質的な4つのタスクを包含する。
MMCBenchという名前のベンチマークを作成し、100以上のLMMをカバーしています。
論文 参考訳(メタデータ) (2024-01-22T13:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。