論文の概要: Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI
- arxiv url: http://arxiv.org/abs/2502.17092v1
- Date: Mon, 24 Feb 2025 12:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:57.030787
- Title: Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI
- Title(参考訳): Shakti-VLMs: エンタープライズAIのためのスケーラブルなビジョンランゲージモデル
- Authors: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi,
- Abstract要約: 1B と 4B のパラメータを持つ視覚言語モデルである Shakti VLM を紹介する。
主な進歩としては、注意安定のためのQK-Normalization、ハイブリッド正規化技術、位置符号化の強化などがある。
評価の結果,Shakti-Shakti-VLM-1BとShakti-VLM-4Bは文書理解,ビジュアル推論,OCR抽出,一般マルチモーダル推論に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce Shakti VLM, a family of vision-language models in the capacity of 1B and 4B parameters designed to address data efficiency challenges in multimodal learning. While recent VLMs achieve strong performance through extensive training data, Shakti models leverage architectural innovations to attain competitive results with fewer tokens. Key advancements include QK-Normalization for attention stability, hybrid normalization techniques, and enhanced positional encoding. A three-stage training strategy further optimizes learning efficiency. Evaluations show that Shakti-Shakti-VLM-1B and Shakti-VLM-4B excel in document understanding, Visual Reasoning, OCR extraction, and general multimodal reasoning. Our results highlight that high performance can be achieved through model design and training strategy rather than sheer data volume, making Shakti an efficient solution for enterprise-scale multimodal tasks.
- Abstract(参考訳): マルチモーダル学習におけるデータ効率の課題に対処するために, 1B と 4B のパラメータを持つ視覚言語モデルである Shakti VLM を紹介する。
最近のVLMは、広範なトレーニングデータを通じて強力なパフォーマンスを達成する一方で、Shaktiモデルは、より少ないトークンで競合する結果を得るためにアーキテクチャの革新を活用している。
主な進歩としては、注意安定のためのQK-Normalization、ハイブリッド正規化技術、位置符号化の強化などがある。
3段階のトレーニング戦略は、学習効率をさらに最適化する。
評価の結果,Shakti-Shakti-VLM-1BとShakti-VLM-4Bは文書理解,ビジュアル推論,OCR抽出,一般マルチモーダル推論に優れていた。
以上の結果から,データボリュームよりもモデル設計やトレーニング戦略によって高いパフォーマンスを実現することが可能であること,企業規模のマルチモーダルタスクにおいて,Shaktiを効率的なソリューションにすること,などが示唆された。
関連論文リスト
- Scalable Vision Language Model Training via High Quality Data Curation [10.121967684111445]
本稿では,2Bパラメータと8BパラメータでSOTA(State-of-the-art)性能を実現するための,オープンソースのビジョン言語モデル(VLM)シリーズを紹介する。
以下の3つの重要な改善は、SAILVLの主要なパフォーマンスに貢献している。
論文 参考訳(メタデータ) (2025-01-10T13:27:04Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。