論文の概要: BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning
- arxiv url: http://arxiv.org/abs/2504.09426v1
- Date: Sun, 13 Apr 2025 04:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:10.483069
- Title: BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning
- Title(参考訳): BabyVLM: 幼児学習に触発されたVLMのデータ効率向上
- Authors: Shengao Wang, Arjun Chandra, Aoming Liu, Venkatesh Saligrama, Boqing Gong,
- Abstract要約: ヒトの幼児は、最小限の入力から視覚的推論スキルを急速に発達させる。
最近の取り組みは、SAYCamのような幼児にインスパイアされたデータセットを活用している。
包括的ドメイン評価ベンチマークと合成トレーニングデータセットからなる新しいフレームワークであるBabyVLMを提案する。
- 参考スコア(独自算出の注目度): 47.451445173060094
- License:
- Abstract: Human infants rapidly develop visual reasoning skills from minimal input, suggesting that developmentally inspired pretraining could significantly enhance the efficiency of vision-language models (VLMs). Although recent efforts have leveraged infant-inspired datasets like SAYCam, existing evaluation benchmarks remain misaligned--they are either too simplistic, narrowly scoped, or tailored for large-scale pretrained models. Additionally, training exclusively on infant data overlooks the broader, diverse input from which infants naturally learn. To address these limitations, we propose BabyVLM, a novel framework comprising comprehensive in-domain evaluation benchmarks and a synthetic training dataset created via child-directed transformations of existing datasets. We demonstrate that VLMs trained with our synthetic dataset achieve superior performance on BabyVLM tasks compared to models trained solely on SAYCam or general-purpose data of the SAYCam size. BabyVLM thus provides a robust, developmentally aligned evaluation tool and illustrates how compact models trained on carefully curated data can generalize effectively, opening pathways toward data-efficient vision-language learning paradigms.
- Abstract(参考訳): ヒトの幼児は、最小限の入力から視覚的推論スキルを急速に発達させ、発達にインスパイアされた事前学習が視覚言語モデルの効率を大幅に向上させることを示唆している。
最近の取り組みでは、SAYCamのような幼児にインスパイアされたデータセットを活用しているが、既存の評価ベンチマークは不一致のままである。
さらに、幼児のデータのみを訓練することは、幼児が自然に学ぶ幅広い多様な入力を見落としている。
これらの制約に対処するために、包括的ドメイン評価ベンチマークと、既存のデータセットの児童指向変換によって生成される合成トレーニングデータセットからなる新しいフレームワークであるBabyVLMを提案する。
合成データセットを用いてトレーニングしたVLMは,SAYCamのみをトレーニングしたモデルやSAYCamサイズの汎用データと比較すると,BabyVLMタスクにおいて優れた性能を発揮することを示す。
BabyVLMは、堅牢で開発に整合した評価ツールを提供し、慎重にキュレートされたデータに基づいて訓練されたコンパクトモデルがいかに効果的に一般化できるかを示し、データ効率のよい視覚言語学習パラダイムへの道を開く。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences [8.952954042940368]
これまでで最大の開発中心のビデオデータセットであるBabyViewデータセットをリリースしています。
この493時間のデータセットには、6ヶ月から5歳までの子どもの、長手、家庭、および就学前の環境のエゴセントリックなビデオが含まれています。
我々は,自己教師型言語と視覚モデルを訓練し,構文構造学習,物体認識,深度推定,画像セグメント化などのアウト・オブ・ディストリビューションタスクへの伝達を評価する。
論文 参考訳(メタデータ) (2024-06-14T23:52:27Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - On the Automatic Generation and Simplification of Children's Stories [14.465545222216749]
まず,語彙と可読性を適切に調整したストーリを生成するために,いくつかの人気言語モデルの能力について検討する。
第2の実験として、子どもの物語の領域に一般化する最先端の語彙的単純化モデルについて検討する。
その結果,過去最強の語彙単純化モデルは,背景にある大きな言語モデルに依存しているため,子ども向けの素材としてはあまり機能しないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T21:31:34Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。