Fugu-MT 論文翻訳(概要): 20/20 Vision Language Models: A Prescription for Better VLMs through Data Curation Alone

論文の概要: 20/20 Vision Language Models: A Prescription for Better VLMs through Data Curation Alone

arxiv url: http://arxiv.org/abs/2605.11405v2
Date: Wed, 13 May 2026 01:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 17:13:58.882899
Title: 20/20 Vision Language Models: A Prescription for Better VLMs through Data Curation Alone
Title（参考訳）: 20/20ビジョン言語モデル: データキュレーションによるより良いVLMの定式化
Authors: DatologyAI, :, Siddharth Joshi, Haoli Yin, Rishabh Adiga, Haakon Mongstad, Alvin Deng, Aldo Carranza, Alex Fang, Amro Abbas, Anshuman Suri, Brett Larsen, Daniel Zayas, Darren Teh, David Schwab, Diego Kiner, Fan Pan, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Kaleigh Mentzer, Luke Merrick, Maximilian Böther, Parth Doshi, Paul Burstein, Pratyush Maini, Ties Robroek, Tony Jiang, Vidhi Jain, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt,
Abstract要約: データキュレーションは、20のVLMベンチマークにおいて、平均で+11.7ppの性能を向上できることを示す。 2BではInternVL3.5-2Bを9.9ppで17倍のトレーニング計算で上回りました。データキュレーションは、より良いVLMを構築するための高平均ツールであり、最大150倍のトレーニング計算で最前線の精度に達する。
参考スコア（独自算出の注目度）: 17.84750728317393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data curation has shifted the quality-compute frontier for language-model and contrastive image-text pretraining, but its role for vision-language models (VLMs) is far less established. We ask how far data curation alone can take VLM performance, holding architecture, training recipe, and compute fixed and varying only the training data. Our pipeline, applied to the MAmmoTH-VL single-image subset, lifts performance by +11.7pp on average across 20 public VLM benchmarks (spanning grounding, VQA, OCR/documents, captioning, spatial/3D, counting, charts, math, brand-ID, and multi-image reasoning) and by +11.3pp on average across all nine capability axes of DatBench, our high-fidelity VLM eval suite. At 2B, our curated model surpasses InternVL3.5-2B by 9.9pp at ~17x less training compute and closes the gap to Qwen3-VL-2B to within 1.8pp at ~87x less compute, from pretraining alone. Beyond accuracy, curation delivers four further properties: (1) Reliability: per-capability std across training seeds drops by ~67% and the lift survives a 4k-to-16k context-length sweep; (2) OOD generalization: the 9-eval OOD average rises by +7.2pp, and multi-image BLINK rises by +3.09pp despite single-image-only training, with Visual Correspondence gaining +11.8pp; (3) Behavioral gains beyond benchmarks: across ~1,100 open-ended queries the curated 2B is more honest and more specific than the matched-compute baseline, and more concise and less refusal-prone than a frontier 2B reference; (4) Pareto-dominance on inference cost: at every scale (1B, 2B, 4B) the curated model raises accuracy while lowering response FLOPs vs. the matched-compute baseline, and the curated 4B matches near-frontier accuracy at 3.3x lower response FLOPs than Qwen3-VL-4B. Data curation is a high-leverage tool for building better VLMs, reaching near-frontier accuracy at up to ~150x less training compute.
Abstract（参考訳）: データキュレーションは、言語モデルと対照的な画像テキスト事前学習のための品質計算フロンティアをシフトしてきたが、視覚言語モデル(VLM)におけるその役割は確立されていない。データキュレーションだけで、VLMのパフォーマンス、アーキテクチャ保持、トレーニングレシピ、修正されたトレーニングデータのみを計算し、変更できるかどうかを問う。私たちのパイプラインは、MAmmoTH-VLのシングルイメージサブセットに適用され、20のVLMベンチマーク(スパンニンググラウンド、VQA、OCR/ドキュメント、キャプション、空間/3D、カウント、チャート、数学、ブランドID、マルチイメージ推論)で平均+11.7pp、高忠実度VLMevalスイートであるDatBenchの9つの機能軸で平均+11.3ppのパフォーマンスを向上します。 2Bでは,InternVL3.5-2Bを9.9ppのトレーニング計算で上回り,Qwen3-VL-2Bから1.8ppの計算でギャップを埋める。信頼性: トレーニング種子を67%減らし、リフトが4kから16kのコンテキストスイープに耐える (2) OOD一般化: 9-eval OOD平均値が+7.2pp上昇し、マルチイメージのBLINKが+3.09pp上昇する。データキュレーションは、より良いVLMを構築するための高平均ツールであり、トレーニング計算の最大150倍の精度で最前線に到達している。

関連論文リスト

U-VLM: Hierarchical Vision Language Modeling for Report Generation [20.09433657986766]
トレーニングとアーキテクチャの両方において階層型視覚言語モデリングを可能にするU-VLMを提案する。 U-VLMはCT-RATEとAbdomenAtlas 3.0で、スクラッチからトレーニングされた0.1Bデコーダのみを使用して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-28T05:43:11Z)
PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning [5.308328605042682]
360パノラマ画像は、バーチャルリアリティー、自律運転、総合的なシーン理解のためのロボティクスでますます利用されている。現在の視覚言語モデル(VLM)は、幾何学的歪みと限定的な3次元監督のため、等角射影(ERP)画像の空間的推論に苦慮している。合成3D環境から構築した大規模VQAベンチマークであるPanoEnvを紹介する。我々の7Bモデルは、新しい最先端性能を実現し、全体的な精度を52.93%(+3.59%)、オープンエンド精度を14.83%に改善し、構造化タスク性能を維持した。
論文参考訳（メタデータ） (2026-02-25T15:12:17Z)
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance [35.90972175891154]
多くのVision-Language-Action (VLA)モデルは、画像パッチを1Dトークンシーケンスに平坦化し、正確な操作に必要な2D空間キューを弱める。我々は,モデルに組み込まれた視覚で既に利用可能な親和性ヒントを活用することにより,空間的理解を改善する軽量なトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2026-01-22T18:57:13Z)
STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文参考訳（メタデータ） (2026-01-14T17:58:24Z)
Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文参考訳（メタデータ） (2025-12-02T20:52:19Z)
STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision [24.162895928364062]
トポロジを意識した推論のためのトレーニングフレームワークSTELAR-Visionを紹介する。コアとなるTopoAugは、さまざまなトポロジカルな構造でトレーニングを充実させる合成データパイプラインだ。 MATH-VとVLM-S2Hでは、STELAR-Visionはベースモデルの精度を9.7%向上し、より大型のQwen2VL-72B-インストラクションを7.3%上回っている。
論文参考訳（メタデータ） (2025-08-12T07:27:50Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。 EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文参考訳（メタデータ） (2022-10-14T13:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。