Fugu-MT 論文翻訳(概要): Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models

論文の概要: Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models

arxiv url: http://arxiv.org/abs/2311.12327v2
Date: Fri, 26 Apr 2024 01:50:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 17:48:19.345297
Title: Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models
Title（参考訳）: 視覚接地と一般化の促進:視覚言語モデルのためのマルチタスクサイクルトレーニングアプローチ
Authors: Xiaoyu Yang, Lijian Xu, Hao Sun, Hongsheng Li, Shaoting Zhang,
Abstract要約: 視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。 ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
参考スコア（独自算出の注目度）: 41.64717254672843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual grounding (VG) occupies a pivotal position in multi-modality vision-language models. In this study, we propose ViLaM, a large multi-modality model, that supports multi-tasks of VG using the cycle training strategy, with abundant interaction instructions. The cycle training between referring expression generation (REG) and referring expression comprehension (REC) is introduced. It enhances the consistency between visual location and referring expressions, and addresses the need for high-quality, multi-tasks VG datasets. Moreover, multi-tasks of VG are promoted in our model, contributed by the cycle training strategy. The multi-tasks in REC encompass a range of granularities, from region-level to pixel-level, which include referring bbox detection, referring keypoints detection, and referring image segmentation. In REG, referring region classification determines the fine-grained category of the target, while referring region captioning generates a comprehensive description. Meanwhile, all tasks participate in the joint training, synergistically enhancing one another and collectively improving the overall performance of the model. Furthermore, leveraging the capabilities of large language models, ViLaM extends a wide range of instructions, thereby significantly enhancing its generalization and interaction potentials. Extensive public datasets corroborate the superior capabilities of our model in VG with muti-tasks. Additionally, validating its robust generalization, ViLaM is validated under open-set and few-shot scenarios. Especially in the medical field, our model demonstrates cross-domain robust generalization capabilities. Furthermore, we contribute a VG dataset, especially with multi-tasks. To support and encourage the community focused on VG, we have made both the dataset and our code public: https://github.com/AnonymGiant/ViLaM.
Abstract（参考訳）: 視覚接地(VG)は多モード視覚言語モデルにおいて重要な位置を占める。本研究では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。参照表現生成(REG)と参照表現理解(REC)のサイクルトレーニングを導入する。視覚的な位置と参照表現の一貫性を高め、高品質でマルチタスクなVGデータセットの必要性に対処する。さらに,本モデルでは,VGのマルチタスクが促進され,サイクルトレーニング戦略に寄与する。 RECのマルチタスクは、領域レベルからピクセルレベルまで、参照ボックス検出、参照キーポイント検出、参照イメージセグメンテーションを含む様々な粒度を含んでいる。 REGでは、参照領域分類がターゲットのきめ細かいカテゴリを決定し、参照領域キャプションは包括的な記述を生成する。一方、全てのタスクがジョイントトレーニングに参加し、シナジスティックに互いに強化し、モデル全体のパフォーマンスを総括的に改善する。さらに、大規模な言語モデルの能力を活用して、ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に向上させる。大規模な公開データセットは、ミューティタスクを持つVGにおいて、私たちのモデルの優れた能力を裏付けます。さらに、その堅牢な一般化を検証するために、ViLaMはオープンセットと少数ショットのシナリオで検証される。特に医療分野では,クロスドメイン・ロバストな一般化能力を示す。さらに、VGデータセット、特にマルチタスクにコントリビュートする。 VGにフォーカスしたコミュニティのサポートと奨励のために、データセットとコードの両方を公開しました。

関連論文リスト

Advancing Visual Large Language Model for Multi-granular Versatile Perception [31.78788398688894]
Visual Large Language Model を取り入れた多言語・多言語知覚フレームワーク MVP-LM を提案する。我々のフレームワークは、ボックスとマスクの予測とともに、単語ベースと文ベースの両方の知覚タスクを統合するように設計されている。 MVP-LMは、CoTにインスパイアされたデータセット統一戦略と合わせて、革新的なマルチグラニュラリティデコーダを備えている。
論文参考訳（メタデータ） (2025-07-22T04:09:14Z)
Universal Retrieval for Multimodal Trajectory Modeling [12.160448446091607]
軌道データは、AIエージェント能力を向上する大きな可能性を秘めている。本稿では,ユニバーサル検索とエージェント中心軌道モデリングのギャップを埋めるマルチモーダル軌道検索手法を提案する。
論文参考訳（メタデータ） (2025-06-27T09:50:38Z)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。 Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳（メタデータ） (2025-03-16T12:48:17Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2024-10-21T16:30:29Z)
MedUniSeg: 2D and 3D Medical Image Segmentation via a Prompt-driven Universal Model [27.58715707047272]
MedUniSegは、2次元および3次元マルチタスクセグメンテーションのためのプロンプト駆動のユニバーサルセグメンテーションモデルである。 MedUniSegは複数のモーダル固有のプロンプトとユニバーサルタスクプロンプトを使用して、モーダルとタスクを正確に特徴づける。我々は17のサブデータセットからなる総合的マルチモーダル上流データセット上でMedUniSegを評価する。
論文参考訳（メタデータ） (2024-10-08T11:04:01Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。 HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文参考訳（メタデータ） (2024-04-20T14:57:31Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。 GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文参考訳（メタデータ） (2023-12-14T17:26:00Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。