論文の概要: ViLaM: A Vision-Language Model with Enhanced Visual Grounding and
Generalization Capability
- arxiv url: http://arxiv.org/abs/2311.12327v1
- Date: Tue, 21 Nov 2023 03:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:07:07.027127
- Title: ViLaM: A Vision-Language Model with Enhanced Visual Grounding and
Generalization Capability
- Title(参考訳): ViLaM:視覚的グラウンディングと一般化機能を備えた視覚言語モデル
- Authors: Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang
- Abstract要約: ViLaMは、大きな言語モデルに述語された命令チューニングを統合する統合されたビジョンランゲージトランスフォーマーモデルである。
我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、調整する。
医療分野におけるViLaMの今後の応用の可能性を示すものとして,このモデルの目覚ましいゼロショット学習能力を見てきた。
- 参考スコア(独自算出の注目度): 42.75233695675096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have revolutionized human-computer interaction and
shown significant progress in multi-modal tasks. However, applying these models
to complex visual tasks like medical image analysis remains challenging. In
this study, we propose ViLaM, a unified Vision-Language transformer model that
integrates instruction tuning predicated on a large language model. This
approach enables us to optimally utilize the knowledge and reasoning capacities
of large pre-trained language models for an array of tasks encompassing both
language and vision. We employ frozen pre-trained encoders to encode and align
both image and text features, enabling ViLaM to handle a variety of visual
tasks following textual instructions. Besides, we've designed cycle training
for referring expressions to address the need for high-quality, paired
referring expression datasets for training large models in terms of both
quantity and quality. We evaluated ViLaM's exceptional performance on public
general datasets and further confirmed its generalizability on medical
datasets. Importantly, we've observed the model's impressive zero-shot learning
ability, indicating the potential future application of ViLaM in the medical
field.
- Abstract(参考訳): 視覚言語モデルは人間とコンピュータの相互作用に革命をもたらし、マルチモーダルタスクにおいて大きな進歩を見せている。
しかし、これらのモデルを医療画像分析のような複雑な視覚タスクに適用することは依然として困難である。
本研究では,大規模な言語モデルに基づく指導指導を統合した視覚言語変換モデルViLaMを提案する。
提案手法は,大規模事前学習言語モデルの知識と推論能力を,言語と視覚の両方を包含するタスクの配列に最適に活用することを可能にする。
我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、アライメントし、ViLaMがテキスト命令に従って様々な視覚タスクを処理できるようにする。
さらに、我々は、量と品質の両方の観点から大きなモデルをトレーニングするための高品質なペア付き参照式データセットの必要性に対応するために、表現を参照するためのサイクルトレーニングを設計しました。
一般データセットにおけるvilamの優れた性能を評価し,医療データセットの汎用性をさらに確認した。
重要なことに、我々はこのモデルの印象的なゼロショット学習能力を観察し、医療分野におけるViLaMの潜在的な応用を示唆している。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - MedUniSeg: 2D and 3D Medical Image Segmentation via a Prompt-driven Universal Model [27.58715707047272]
MedUniSegは、2次元および3次元マルチタスクセグメンテーションのためのプロンプト駆動のユニバーサルセグメンテーションモデルである。
MedUniSegは複数のモーダル固有のプロンプトとユニバーサルタスクプロンプトを使用して、モーダルとタスクを正確に特徴づける。
我々は17のサブデータセットからなる総合的マルチモーダル上流データセット上でMedUniSegを評価する。
論文 参考訳(メタデータ) (2024-10-08T11:04:01Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。