Fugu-MT 論文翻訳(概要): ViLaM: A Vision-Language Model with Enhanced Visual Grounding and Generalization Capability

論文の概要: ViLaM: A Vision-Language Model with Enhanced Visual Grounding and Generalization Capability

arxiv url: http://arxiv.org/abs/2311.12327v1
Date: Tue, 21 Nov 2023 03:40:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 02:07:07.027127
Title: ViLaM: A Vision-Language Model with Enhanced Visual Grounding and Generalization Capability
Title（参考訳）: ViLaM:視覚的グラウンディングと一般化機能を備えた視覚言語モデル
Authors: Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang
Abstract要約: ViLaMは、大きな言語モデルに述語された命令チューニングを統合する統合されたビジョンランゲージトランスフォーマーモデルである。我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、調整する。医療分野におけるViLaMの今後の応用の可能性を示すものとして,このモデルの目覚ましいゼロショット学習能力を見てきた。
参考スコア（独自算出の注目度）: 42.75233695675096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models have revolutionized human-computer interaction and shown significant progress in multi-modal tasks. However, applying these models to complex visual tasks like medical image analysis remains challenging. In this study, we propose ViLaM, a unified Vision-Language transformer model that integrates instruction tuning predicated on a large language model. This approach enables us to optimally utilize the knowledge and reasoning capacities of large pre-trained language models for an array of tasks encompassing both language and vision. We employ frozen pre-trained encoders to encode and align both image and text features, enabling ViLaM to handle a variety of visual tasks following textual instructions. Besides, we've designed cycle training for referring expressions to address the need for high-quality, paired referring expression datasets for training large models in terms of both quantity and quality. We evaluated ViLaM's exceptional performance on public general datasets and further confirmed its generalizability on medical datasets. Importantly, we've observed the model's impressive zero-shot learning ability, indicating the potential future application of ViLaM in the medical field.
Abstract（参考訳）: 視覚言語モデルは人間とコンピュータの相互作用に革命をもたらし、マルチモーダルタスクにおいて大きな進歩を見せている。しかし、これらのモデルを医療画像分析のような複雑な視覚タスクに適用することは依然として困難である。本研究では,大規模な言語モデルに基づく指導指導を統合した視覚言語変換モデルViLaMを提案する。提案手法は,大規模事前学習言語モデルの知識と推論能力を,言語と視覚の両方を包含するタスクの配列に最適に活用することを可能にする。我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、アライメントし、ViLaMがテキスト命令に従って様々な視覚タスクを処理できるようにする。さらに、我々は、量と品質の両方の観点から大きなモデルをトレーニングするための高品質なペア付き参照式データセットの必要性に対応するために、表現を参照するためのサイクルトレーニングを設計しました。一般データセットにおけるvilamの優れた性能を評価し,医療データセットの汎用性をさらに確認した。重要なことに、我々はこのモデルの印象的なゼロショット学習能力を観察し、医療分野におけるViLaMの潜在的な応用を示唆している。

関連論文リスト

Advancing Visual Large Language Model for Multi-granular Versatile Perception [31.78788398688894]
Visual Large Language Model を取り入れた多言語・多言語知覚フレームワーク MVP-LM を提案する。我々のフレームワークは、ボックスとマスクの予測とともに、単語ベースと文ベースの両方の知覚タスクを統合するように設計されている。 MVP-LMは、CoTにインスパイアされたデータセット統一戦略と合わせて、革新的なマルチグラニュラリティデコーダを備えている。
論文参考訳（メタデータ） (2025-07-22T04:09:14Z)
Universal Retrieval for Multimodal Trajectory Modeling [12.160448446091607]
軌道データは、AIエージェント能力を向上する大きな可能性を秘めている。本稿では,ユニバーサル検索とエージェント中心軌道モデリングのギャップを埋めるマルチモーダル軌道検索手法を提案する。
論文参考訳（メタデータ） (2025-06-27T09:50:38Z)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。 Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳（メタデータ） (2025-03-16T12:48:17Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2024-10-21T16:30:29Z)
MedUniSeg: 2D and 3D Medical Image Segmentation via a Prompt-driven Universal Model [27.58715707047272]
MedUniSegは、2次元および3次元マルチタスクセグメンテーションのためのプロンプト駆動のユニバーサルセグメンテーションモデルである。 MedUniSegは複数のモーダル固有のプロンプトとユニバーサルタスクプロンプトを使用して、モーダルとタスクを正確に特徴づける。我々は17のサブデータセットからなる総合的マルチモーダル上流データセット上でMedUniSegを評価する。
論文参考訳（メタデータ） (2024-10-08T11:04:01Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。 HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文参考訳（メタデータ） (2024-04-20T14:57:31Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。 GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文参考訳（メタデータ） (2023-12-14T17:26:00Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。