論文の概要: A Survey on Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.09724v1
- Date: Sun, 13 Apr 2025 21:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:52.392686
- Title: A Survey on Efficient Vision-Language Models
- Title(参考訳): 効率的な視覚・言語モデルの検討
- Authors: Gaurav Shinde, Anuradha Ravi, Emon Dey, Shadman Sakib, Milind Rampure, Nirmalya Roy,
- Abstract要約: 視覚言語モデル(VLM)は視覚情報とテキスト情報を統合し、画像キャプションや視覚的質問応答などの幅広いアプリケーションを可能にする。
リアルタイムアプリケーションには高い計算要求が課題となる。
これにより、効率的な視覚言語モデルの開発に焦点が当てられている。
- 参考スコア(独自算出の注目度): 0.6597195879147555
- License:
- Abstract: Vision-language models (VLMs) integrate visual and textual information, enabling a wide range of applications such as image captioning and visual question answering, making them crucial for modern AI systems. However, their high computational demands pose challenges for real-time applications. This has led to a growing focus on developing efficient vision language models. In this survey, we review key techniques for optimizing VLMs on edge and resource-constrained devices. We also explore compact VLM architectures, frameworks and provide detailed insights into the performance-memory trade-offs of efficient VLMs. Furthermore, we establish a GitHub repository at https://github.com/MPSCUMBC/Efficient-Vision-Language-Models-A-Survey to compile all surveyed papers, which we will actively update. Our objective is to foster deeper research in this area.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚情報とテキスト情報を統合し、画像キャプションや視覚的質問応答といった幅広い応用を可能にし、現代のAIシステムにとって欠かせないものとなっている。
しかし、それらの高い計算要求はリアルタイムアプリケーションに課題をもたらす。
これにより、効率的な視覚言語モデルの開発に焦点が当てられている。
本稿では,エッジデバイスおよびリソース制約デバイス上でのVLMの最適化技術について概説する。
また、コンパクトなVLMアーキテクチャ、フレームワークについても検討し、効率的なVLMの性能メモリトレードオフに関する詳細な知見を提供する。
さらに、GitHubリポジトリをhttps://github.com/MPSCUMBC/Efficient-Vision-Language-Models-A-Surveyに設置し、調査対象のすべての論文をコンパイルします。
私たちの目標は、この分野のより深い研究を促進することです。
関連論文リスト
- Vision-Language Models for Edge Networks: A Comprehensive Survey [32.05172973290599]
Vision Large Language Models (VLM)は、視覚的理解と自然言語処理を組み合わせることで、画像キャプション、視覚的質問応答、ビデオ分析などのタスクを可能にする。
VLMは、自動運転車、スマート監視、ヘルスケアといった分野にまたがる印象的な機能を示している。
リソース制約のあるエッジデバイスへのデプロイメントは、処理能力、メモリ、エネルギー制限のため、依然として困難である。
論文 参考訳(メタデータ) (2025-02-11T14:04:43Z) - Visual Large Language Models for Generalized and Specialized Applications [39.00785227266089]
ビジュアル言語モデル(VLM)は、視覚と言語のための統合的な埋め込み空間を学ぶための強力なツールとして登場した。
強力な推論とマルチタスク能力を示す大規模言語モデルに触発された視覚的大規模言語モデル(VLLM)は、汎用VLMの構築に注目が集まっている。
論文 参考訳(メタデータ) (2025-01-06T05:15:59Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning [33.89483627891117]
言語と視覚アシスタントの最近の進歩は印象的な能力を示しているが、透明性の欠如に悩まされている。
オープンソースモデルは、一般的なイメージタスクを効果的に処理するが、複雑な視覚的なテキスト理解の高度な計算要求に直面する。
本研究の目的は、キーコンポーネントを特定し、制約付き推論コストで効率的なモデルを作成することにより、視覚言語モデルの設計を再定義することである。
論文 参考訳(メタデータ) (2024-06-17T17:57:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。