論文の概要: OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.07786v1
- Date: Sun, 08 Mar 2026 20:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.214783
- Title: OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models
- Title(参考訳): OrdinalBench:視覚言語モデルの正規数理解における一般化限界の診断のためのベンチマークデータセット
- Authors: Yusuke Tozaki, Hisashi Miyamori,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダルベンチマークにまたがって進歩しているが、それでも順序数理解における明確なギャップを示している。
評価タスクとして順序数理解を標準化する診断ベンチマークであるOrdinalBenchを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have advanced across multimodal benchmarks but still show clear gaps in ordinal number understanding, i.e., the ability to track relative positions and generalize to large indices. We present OrdinalBench, a diagnostic benchmark that standardizes ordinal number understanding as an evaluation task for VLMs. The core task is N-th object identification, defined by a starting reference and traversal rule. Task difficulty is controlled along three axes: (i) ordinal magnitude, from small numbers to extreme cases up to 300; (ii) arrangement complexity, from single loops to maze-like paths; and (iii) object count. The benchmark provides 39,000 question-answer pairs, each annotated with a ground-truth reasoning trajectory and balanced across difficulty levels for controlled large-scale testing. Beyond answer-only evaluation, our framework requires models to generate structured stepwise traces of the counting process and provides an open evaluation toolkit that measures both final accuracy and step-level path consistency. Zero-shot evaluations of GPT-5, Gemini 2.5 Flash Lite, Qwen2.5-VL, InternVL3.5, and Molmo reveal sharp degradation under large-ordinal and complex-path conditions, highlighting weak generalization despite strong scores on standard multimodal tasks. By framing ordinal number understanding as a core target, OrdinalBench provides a reproducible benchmark and diagnostic framework for developing VLMs with stronger sequential reasoning. All data and code are available at https://ordinalbench.github.io/
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルベンチマークにまたがって進歩しているが、それでも順序数理解における明確なギャップ、すなわち相対的な位置を追跡して大きな指標に一般化する能力を示す。
本稿では,VLMの評価タスクとして,順序数理解を標準化した診断ベンチマークOrdinalBenchを提案する。
コアタスクはN番目のオブジェクト識別であり、開始基準とトラバースルールによって定義される。
タスクの難易度は3軸に沿って制御される。
(i)小数から極端に300までの順序等級
(二)単一ループから迷路のような経路までの配置の複雑さ
(三)対象数
ベンチマークでは39,000の質問応答ペアが提供され、それぞれに基調推論の軌道が注釈付けされ、大規模なテストを制御するための難易度間でバランスが取れている。
回答のみの評価の他に、我々のフレームワークは数え上げ過程の構造的段階的トレースを生成するモデルを必要とし、最終的な精度とステップレベルの経路の整合性の両方を測定するオープンな評価ツールキットを提供する。
GPT-5, Gemini 2.5 Flash Lite, Qwen2.5-VL, InternVL3.5, Molmo のゼロショット評価では、標準マルチモーダルタスクのスコアが強いにもかかわらず、高次および複素パス条件下での急激な劣化が明らかとなった。
OrdinalBenchは、順序数理解をコアターゲットとすることで、より強力なシーケンシャル推論を持つVLMを開発するための再現可能なベンチマークと診断フレームワークを提供する。
すべてのデータとコードはhttps://ordinalbench.github.io/で公開されている。
関連論文リスト
- Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting [59.37613121962146]
本稿では,クラスに依存しないオブジェクトカウントのためのMLLM駆動型弱教師付きフレームワークWS-COCを提案する。
WS-COCは、多くの最先端の完全に管理されたメソッドと一致し、また、アノテーションのコストを大幅に削減します。
論文 参考訳(メタデータ) (2026-02-13T09:58:35Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - GamiBench: Evaluating Spatial Reasoning and 2D-to-3D Planning Capabilities of MLLMs with Origami Folding Tasks [2.037026133182214]
本稿では,大言語モデル(MLLM)における空間的推論を評価するベンチマークであるGamiBenchを紹介する。
GamiBenchには、186の正規かつ不可能な2Dクリーゼパターンと、対応する3D折りたたみ形状が組み合わされている。
GamiBenchは、クロスビュー整合性の測定、不可能な折りたたみ検出による物理的実現性、中間的な折りたたみステップの解釈など、すべての推論プロセスを評価している。
論文 参考訳(メタデータ) (2025-12-22T01:07:59Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Stronger Than You Think: Benchmarking Weak Supervision on Realistic Tasks [19.49705185032905]
弱監督 (WS) はラベル効率の学習において一般的な手法であり、様々なノイズがあるが安価なラベルを用いて自動的にトレーニングデータに注釈を付ける。
広く使われているにもかかわらず、WSとその実践的価値は、そのセットアップに多くのノブがあるため、ベンチマークするのは難しいです。
我々は、WSの実際の利用をより正確に反映するように設計された新しいベンチマークであるBOXWRENCHを紹介します。
論文 参考訳(メタデータ) (2025-01-13T22:29:31Z) - Benchmarking Large Language Models with Integer Sequence Generation Tasks [2.204499020600093]
本稿では,数学推論タスクにおける大規模言語モデル(LLM)の機能評価を行うベンチマークを提案する。
このベンチマークは、オンラインシーケンス百科事典(OEIS)から得られた整数列生成タスクからなる。
私たちの評価には、OpenAI(特別な推論に焦点を当てたoシリーズを含む)、Arthropic、Meta、Googleのリードモデルが含まれています。
論文 参考訳(メタデータ) (2024-11-07T02:05:43Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。