論文の概要: Inference Compute-Optimal Video Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.18855v1
- Date: Sat, 24 May 2025 20:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.69739
- Title: Inference Compute-Optimal Video Vision Language Models
- Title(参考訳): 推論計算-最適映像ビジョン言語モデル
- Authors: Peiqi Wang, ShengYun Peng, Xuewen Zhang, Hanchao Yu, Yibo Yang, Lifu Huang, Fujun Liu, Qifan Wang,
- Abstract要約: 本研究では,ビデオビジョン言語モデルにおける3つの主要なスケーリング要因間の推論計算の最適割り当てについて検討する。
我々の実験では、タスクパフォーマンスがスケーリングの要因やデータサイズの微調整にどのように依存するか、そしてデータサイズの変化が計算-最適フロンティアをどのようにシフトするかを明らかにした。
- 参考スコア(独自算出の注目度): 43.58391312563079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the optimal allocation of inference compute across three key scaling factors in video vision language models: language model size, frame count, and the number of visual tokens per frame. While prior works typically focuses on optimizing model efficiency or improving performance without considering resource constraints, we instead identify optimal model configuration under fixed inference compute budgets. We conduct large-scale training sweeps and careful parametric modeling of task performance to identify the inference compute-optimal frontier. Our experiments reveal how task performance depends on scaling factors and finetuning data size, as well as how changes in data size shift the compute-optimal frontier. These findings translate to practical tips for selecting these scaling factors.
- Abstract(参考訳): 本研究では,ビデオビジョン言語モデルにおける3つの主要なスケーリング要素(言語モデルのサイズ,フレーム数,フレーム単位の視覚トークン数)にまたがる推論計算の最適割り当てについて検討する。
従来の作業では、リソース制約を考慮せずにモデル効率の最適化やパフォーマンスの向上に重点を置いていたが、代わりに、固定された推論計算予算の下で最適なモデル構成を特定する。
本研究では,大規模トレーニングスイープとタスク性能のパラメトリック・モデリングを行い,予測計算-最適フロンティアの同定を行う。
我々の実験では、タスクパフォーマンスがスケーリングの要因やデータサイズの微調整にどのように依存するか、そしてデータサイズの変化が計算-最適フロンティアをどのようにシフトするかを明らかにした。
これらの発見は、これらのスケーリング要因を選択するための実践的なヒントにつながった。
関連論文リスト
- EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [58.10054123910204]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。
モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3~28%向上する。
論文 参考訳(メタデータ) (2025-03-05T19:46:04Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z) - A Generic Performance Model for Deep Learning in a Distributed
Environment [0.7829352305480285]
本稿では,アプリケーション実行時間の汎用表現を用いた分散環境におけるアプリケーションの汎用性能モデルを提案する。
提案手法を3つのディープラーニングフレームワーク(MXnetとPytorch)で評価した。
論文 参考訳(メタデータ) (2023-05-19T13:30:34Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。