論文の概要: Efficient Architectures for High Resolution Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.02584v1
- Date: Sun, 05 Jan 2025 15:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:15.325640
- Title: Efficient Architectures for High Resolution Vision-Language Models
- Title(参考訳): 高分解能ビジョンランゲージモデルのための効率的なアーキテクチャ
- Authors: Miguel Carvalho, Bruno Martins,
- Abstract要約: この研究は、高解像度画像を効率的に処理する新しいアーキテクチャであるPeyeを紹介している。
Pheyeは、特にきめ細かい画像理解を必要とするタスクにおいて、高いパフォーマンスを維持しながら高い効率を達成する。
- 参考スコア(独自算出の注目度): 1.201425717264024
- License:
- Abstract: Vision-Language Models (VLMs) have recently experienced significant advancements. However, challenges persist in the accurate recognition of fine details within high resolution images, which limits performance in multiple tasks. This work introduces Pheye, a novel architecture that efficiently processes high-resolution images while training fewer parameters than similarly sized VLMs. Notably, Pheye achieves a high efficiency while maintaining strong performance, particularly in tasks that demand fine-grained image understanding and/or the handling of scene-text.
- Abstract(参考訳): VLM(Vision-Language Models)は近年大きな進歩を遂げている。
しかし、課題は高解像度画像内の細部を正確に認識することであり、複数のタスクのパフォーマンスを制限している。
この研究は、同じサイズのVLMよりも少ないパラメータをトレーニングしながら、高解像度画像を効率的に処理する新しいアーキテクチャであるPeyeを紹介した。
特に、特にきめ細かい画像理解やシーンテキストの処理を必要とするタスクにおいて、高い性能を維持しながら高い効率を達成する。
関連論文リスト
- Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models [39.55942000935765]
視覚大言語モデル(VLLM)のための新しいデータ合成パイプラインであるSynthVLMを紹介する。
画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択する。
我々は、様々な視覚的質問応答タスクにおける最先端(SoTA)のパフォーマンスを達成し、高いアライメント品質を維持し、高度な言語能力を維持する。
論文 参考訳(メタデータ) (2024-07-30T11:57:40Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Masked Autoencoders as Image Processors [35.531254533198165]
機能事前訓練のためのマスク付きオートエンコーダ(MAE)はトランスフォーマーの可能性を解き放った。
本稿では,マスク付きオートエンコーダが,画像処理タスクのためのスケーラブルな自己教師型学習器であることを示す。
論文 参考訳(メタデータ) (2023-03-30T12:09:35Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Learning with Nested Scene Modeling and Cooperative Architecture Search
for Low-Light Vision [95.45256938467237]
低照度シーンから撮影された画像は、しばしば深刻な劣化に悩まされる。
低照度画像の視覚的品質を高めるために深層学習法が提案されている。
他の低照度ビジョンアプリケーションを扱うために、これらの拡張テクニックを拡張することは依然として困難である。
論文 参考訳(メタデータ) (2021-12-09T06:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。