論文の概要: BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2512.10932v1
- Date: Thu, 11 Dec 2025 18:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.556688
- Title: BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models
- Title(参考訳): BabyVLM-V2:Vision Foundation Modelの事前学習とベンチマークに向けて
- Authors: Shengao Wang, Wenqi Wang, Zecheng Wang, Max Whitton, Michael Wakeham, Arjun Chandra, Joey Huang, Pengyue Zhu, Helen Chen, David Li, Jeffrey Li, Shawn Li, Andrew Zagula, Amy Zhao, Andrew Zhu, Sayaka Nakamura, Yuki Yamamoto, Jerry Jun Yokono, Aaron Mueller, Bryan A. Plummer, Kate Saenko, Venkatesh Saligrama, Boqing Gong,
- Abstract要約: 本稿では,幼児に触発された視覚言語モデリングのための開発基盤となるBabyVLM-V2を紹介する。
プレトレーニングセットは、縦型乳幼児中心の聴覚コーパスのキュレーションを最小化しつつ、カバー範囲を最大化する。
DevCV Toolboxは、先日リリースされたNIH Baby Toolboxのビジョン関連のすべての指標を、10のマルチモーダルタスクのベンチマークスイートに適合させる。
- 参考スコア(独自算出の注目度): 69.84938298826121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early children's developmental trajectories set up a natural goal for sample-efficient pretraining of vision foundation models. We introduce BabyVLM-V2, a developmentally grounded framework for infant-inspired vision-language modeling that extensively improves upon BabyVLM-V1 through a longitudinal, multifaceted pretraining set, a versatile model, and, most importantly, DevCV Toolbox for cognitive evaluation. The pretraining set maximizes coverage while minimizing curation of a longitudinal, infant-centric audiovisual corpus, yielding video-utterance, image-utterance, and multi-turn conversational data that mirror infant experiences. DevCV Toolbox adapts all vision-related measures of the recently released NIH Baby Toolbox into a benchmark suite of ten multimodal tasks, covering spatial reasoning, memory, and vocabulary understanding aligned with early children's capabilities. Experimental results show that a compact model pretrained from scratch can achieve competitive performance on DevCV Toolbox, outperforming GPT-4o on some tasks. We hope the principled, unified BabyVLM-V2 framework will accelerate research in developmentally plausible pretraining of vision foundation models.
- Abstract(参考訳): 幼児の発達軌道は、視覚基盤モデルの標本効率向上のための自然な目標を設定した。
幼児にインスパイアされた視覚言語モデリングのための発達的基盤となるフレームワークであるBabyVLM-V2を紹介する。
プレトレーニングセットは、長手、幼児中心の聴覚コーパスのキュレーションを最小化しつつ、カバー範囲を最大化し、幼児の体験を反映したビデオ発話、画像発話、マルチターン会話データを出力する。
DevCV Toolboxは、先日リリースされたNIH Baby Toolboxの視覚に関するすべての指標を、空間推論、メモリ、幼児の能力に合わせた語彙理解を含む、10のマルチモーダルタスクのベンチマークスイートに適合させる。
実験結果から,DevCV Toolboxでは,スクラッチから事前学習したコンパクトモデルにより競争性能が向上し,GPT-4oの処理性能が向上することが示唆された。
原理的に統一されたBabyVLM-V2フレームワークは、視覚基盤モデルの発達的に妥当な事前訓練の研究を加速することを期待している。
関連論文リスト
- Kwai Keye-VL Technical Report [80.53170317017147]
ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。
Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。
提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
論文 参考訳(メタデータ) (2025-07-02T17:57:28Z) - BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning [33.64851748019174]
ヒトの幼児は、最小限の入力から視覚的推論スキルを急速に発達させる。
最近の取り組みは、SAYCamのような幼児にインスパイアされたデータセットを活用している。
包括的ドメイン評価ベンチマークと合成トレーニングデータセットからなる新しいフレームワークであるBabyVLMを提案する。
論文 参考訳(メタデータ) (2025-04-13T04:17:12Z) - Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。
言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。
本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文 参考訳(メタデータ) (2025-03-23T10:21:14Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。