論文の概要: Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model
- arxiv url: http://arxiv.org/abs/2603.00173v1
- Date: Thu, 26 Feb 2026 16:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.080997
- Title: Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model
- Title(参考訳): Summer-22B:ビデオファンデーションモデルのための大規模データセットエンジニアリングとトレーニングのための体系的アプローチ
- Authors: Simo Ryu, Chunghwan Han,
- Abstract要約: 我々は,スクラッチから開発したビデオファンデーションモデルであるSummer-22Bのトレーニングについて述べる。
本報告では、生の映像コレクションから、約5000万のクリップでトレーニングされた機能モデルへのスケーリング中に学んだ、エンジニアリング上の課題、設計上の決定、教訓について述べる。
- 参考スコア(独自算出の注目度): 0.027282984658063798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe our experience training Summer-22B, a video foundation model developed from scratch. This report documents the engineering challenges, design decisions, and lessons learned while scaling from raw footage collection to a functional model trained on approximately 50 million clips. We outline our approach combining metadata-driven dataset curation, multi-stage filtering, $μ$P parameterization, and hypersphere-constrained optimization. We developed the Lavender Data system for dataset management and adopted inference-aware architectural choices. We share observations on what worked in our setting: dataset engineering consumed the majority of effort, architectural variants showed smaller differences than we expected, and $μ$P hyperparameter transfer appeared effective even under geometric constraints. We hope this account proves useful to others undertaking similar projects.
- Abstract(参考訳): 我々は,スクラッチから開発したビデオファンデーションモデルであるSummer-22Bのトレーニングについて述べる。
本報告では、生の映像コレクションから、約5000万のクリップでトレーニングされた機能モデルへのスケーリング中に学んだ、エンジニアリング上の課題、設計上の決定、教訓について述べる。
メタデータ駆動型データセットキュレーション、マルチステージフィルタリング、$μ$Pパラメータ化、超球面制約最適化を組み合わせたアプローチの概要を述べる。
我々はデータセット管理のためのLavender Dataシステムを開発し、推論対応アーキテクチャ選択を採用した。
データセットエンジニアリングは、ほとんどの労力を消費し、アーキテクチャのバリエーションは、予想よりも小さな違いを示し、μ$Pのハイパーパラメータ転送は、幾何学的制約の下でも効果的に現れました。
このアカウントが、同様のプロジェクトを行う他の人たちにとって有用であることを証明できればと思っています。
関連論文リスト
- From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models [16.522696273752835]
地球観測は、環境変化の監視、災害への対応、天然資源の管理に不可欠である。
基礎モデルにより、リモートセンシング画像解析により、関係する地理情報を正確かつ効率的に取得することができる。
これらのモデルのサイズが大きくなるにつれて、関連する計算資源とコストのために微調整がますます困難になる。
論文 参考訳(メタデータ) (2025-04-24T09:37:02Z) - Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。
モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3~28%向上する。
論文 参考訳(メタデータ) (2025-03-05T19:46:04Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud [12.651588927599441]
モデル微調整の効率を大幅に向上するために,データ拡張モデル群を提案する。
これらのモデルは十分に小さなLLMに基づいて訓練され、推論コストの低い重要な機能をサポートする。
実験と応用研究は、我々のアプローチの有効性を証明した。
論文 参考訳(メタデータ) (2024-12-06T09:04:12Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。