論文の概要: PushupBench: Your VLM is not good at counting pushups
- arxiv url: http://arxiv.org/abs/2604.23407v1
- Date: Sat, 25 Apr 2026 18:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.318902
- Title: PushupBench: Your VLM is not good at counting pushups
- Title(参考訳): PushupBench: VLMはプッシュアップのカウントが得意ではありません
- Authors: Shengzhi Li, Jiarun Chen, Karun Sharma, Jiaqi Su, Shichao Pei,
- Abstract要約: 繰り返しカウントを評価するために、textbfPushupBench, 446 long-form clips (約36.7s)を紹介した。
オープンソースの4Bモデルは$sim$6%を獲得し、教師付きベースラインと一致する。
より弱いモデルは、時間的理由よりもモーダル数を利用する。
- 参考スコア(独自算出の注目度): 15.676180843785303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) can recognize \textit{what} happens in video but fail to count \textit{how many} times. We introduce \textbf{PushupBench}, 446 long-form clips (avg. 36.7s) for evaluating repetition counting. The best frontier model achieves 42.1\% exact accuracy; open-source 4B models score $\sim$6\%, matching supervised baselines. We show that accuracy alone misleads -- weaker models exploit the modal count rather than reason temporally. Fine-tuning on counting with 1k samples transfers to general video understanding: MVBench (+2.15), PerceptionTest (+1.88), TVBench (+4.54), suggesting counting is a proxy for broader temporal reasoning.PushupBench incorporated in \texttt{lmms-eval} (https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262) and hosted on (pushupbench.com/)
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、ビデオで発生する \textit{what} を認識できるが、 \textit{how many} 回数をカウントできない。
繰り返しカウントを評価するために,446個の長大クリップ(36.7s)のtextbf{PushupBench}を紹介した。
最高のフロンティアモデルは42.1\%の精度で達成され、オープンソースの4Bモデルは、教師付きベースラインと一致する$\sim$6\%のスコアを得る。
より弱いモデルは、時間的理由よりもモーダル数を利用する。
MVBench (+2.15), PerceptionTest (+1.88), TVBench (+4.54), suggested counting is a proxy for wide temporal reasoning.PushupBench incorporated in \texttt{lmms-eval} (https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262) and host on (pushupbench.com/)
関連論文リスト
- MEMENTO: Teaching LLMs to Manage Their Own Context [50.3558738319336]
推論モデルは、自身の中間状態を圧縮または整理するメカニズムのない、長い、構造化されていないストリームを思い浮かべる。
MementO: ブロックに推論を分割し、各ブロックをメメントに圧縮し、メメントにのみ参加して推論を行う方法をモデルに教える手法を紹介する。
OpenMementos上の2段階のSFTレシピは、異なるモデルファミリやスケールで有効であることを示す。
論文 参考訳(メタデータ) (2026-04-10T19:30:29Z) - CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models [9.358625944204443]
CompareBenchは視覚言語モデル(VLM)における視覚比較推論を評価するためのベンチマークである。
量(600)、時間(100)、幾何学(200)、空間(100)の4つのタスクにまたがる1000のQAペアで構成されている。
論文 参考訳(メタデータ) (2025-09-25T21:14:11Z) - RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [34.92237577348738]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z) - NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples [79.82029431745612]
視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。
我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
論文 参考訳(メタデータ) (2024-10-18T17:58:21Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - InfiniBench: A Benchmark for Large Multi-Modal Models in Long-Form Movies and TV Shows [36.34306662272004]
InfiniBenchは、長いビデオ理解におけるモデルの能力を評価するために設計されたベンチマークである。
1000時間以上のビデオコンテンツがあり、平均的なビデオの長さは53分である。
グラウンドングベース(シーン遷移、キャラクターアクションなど)と推論ベース(ディープコンテキスト理解、マルチイベントリンクなど)にまたがる8つの多様なスキル
論文 参考訳(メタデータ) (2024-06-28T12:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。