論文の概要: Small Vision-Language Models: A Survey on Compact Architectures and Techniques
- arxiv url: http://arxiv.org/abs/2503.10665v1
- Date: Sun, 09 Mar 2025 16:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 06:38:31.152776
- Title: Small Vision-Language Models: A Survey on Compact Architectures and Techniques
- Title(参考訳): 小型ビジョンランゲージモデル:コンパクトアーキテクチャと技術に関する調査
- Authors: Nitesh Patnaik, Navdeep Nayak, Himani Bansal Agrawal, Moinak Chinmoy Khamaru, Gourav Bal, Saishree Smaranika Panda, Rishi Raj, Vishal Meena, Kartheek Vadlamani,
- Abstract要約: 小型視覚言語モデル(sVLM)の出現は、マルチモーダルAIにおける重要な進歩である。
この調査は、コンパクトデザインと計算効率の革新を強調するアーキテクチャの分類を提供する。
- 参考スコア(独自算出の注目度): 0.28087862620958753
- License:
- Abstract: The emergence of small vision-language models (sVLMs) marks a critical advancement in multimodal AI, enabling efficient processing of visual and textual data in resource-constrained environments. This survey offers a comprehensive exploration of sVLM development, presenting a taxonomy of architectures - transformer-based, mamba-based, and hybrid - that highlight innovations in compact design and computational efficiency. Techniques such as knowledge distillation, lightweight attention mechanisms, and modality pre-fusion are discussed as enablers of high performance with reduced resource requirements. Through an in-depth analysis of models like TinyGPT-V, MiniGPT-4, and VL-Mamba, we identify trade-offs between accuracy, efficiency, and scalability. Persistent challenges, including data biases and generalization to complex tasks, are critically examined, with proposed pathways for addressing them. By consolidating advancements in sVLMs, this work underscores their transformative potential for accessible AI, setting a foundation for future research into efficient multimodal systems.
- Abstract(参考訳): スモールビジョン言語モデル(sVLM)の出現は、リソース制約された環境で視覚的およびテキスト的データの効率的な処理を可能にするマルチモーダルAIにおける重要な進歩を示す。
この調査は、コンパクトデザインと計算効率の革新を強調する、トランスフォーマーベース、マンバベース、ハイブリッドといったアーキテクチャの分類を提示する、sVLM開発に関する包括的な調査を提供する。
資源要求の低減を図り,知識蒸留,軽量注意機構,モダリティプレフュージョンなどの技術について議論した。
TinyGPT-V、MiniGPT-4、VL-Mambaといったモデルの詳細な分析を通じて、精度、効率、スケーラビリティのトレードオフを識別する。
データバイアスや複雑なタスクへの一般化など、永続的な課題について批判的に検討し、それに対応するための経路を提案する。
sVLMの進歩を統合することで、この研究は、アクセス可能なAIの変革の可能性を強調し、将来の効率的なマルチモーダルシステム研究の基礎となる。
関連論文リスト
- Edge-AI for Agriculture: Lightweight Vision Models for Disease Detection in Resource-Limited Settings [0.0]
提案システムは,エッジデバイスへの展開に最適化された高度なオブジェクト検出,分類,セグメンテーションモデルを統合する。
本研究は, 精度, 計算効率, 一般化能力に着目し, 各種最先端モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-23T06:48:50Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [32.774929826684854]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。
本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T01:12:42Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - A Survey of Serverless Machine Learning Model Inference [0.0]
ジェネレーティブAI、コンピュータビジョン、自然言語処理は、AIモデルをさまざまな製品に統合するきっかけとなった。
本調査は,大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し,分類することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T18:46:05Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。