論文の概要: RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic
and Regional Comprehension
- arxiv url: http://arxiv.org/abs/2308.02299v1
- Date: Thu, 3 Aug 2023 14:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:03:57.195550
- Title: RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic
and Regional Comprehension
- Title(参考訳): regionblip: 総合的および地域的理解のための統合マルチモーダル事前学習フレームワーク
- Authors: Qiang Zhou, Chaohui Yu, Shaofeng Zhang, Sitong Wu, Zhibing Wang, Fan
Wang
- Abstract要約: MLLM(Multi-modal Large Language Models)の理解を地域オブジェクトに拡張する。
本稿では,新しい位置支援型特徴抽出モジュールを提案する。
画像-リージョン-テキスト、ポイント-クラウド-テキスト、ポイント-クラウド-リージョン-テキストデータに基づいて、リージョンBLIPを事前訓練する。
- 参考スコア(独自算出の注目度): 12.497783401857134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate extending the comprehension of Multi-modal Large
Language Models (MLLMs) to regional objects. To this end, we propose to extract
features corresponding to regional objects as soft prompts for LLM, which
provides a straightforward and scalable approach and eliminates the need for
LLM fine-tuning. To effectively extract regional features from regular image
features and irregular point cloud features, we present a novel and unified
position-assisted feature extraction module. Furthermore, training an MLLM from
scratch is highly time-consuming. Thus, we propose incrementally extending
existing pre-trained MLLMs to comprehend more modalities and the regional
objects of those modalities. Specifically, we freeze the Q-Former from BLIP-2,
an impressive MLLM, and optimize the modality-specific Lora parameters in
Q-Former and LLM for each newly introduced modality. The freezing of the
Q-Former eliminates the need for extensive pre-training on massive image-text
data. The freezed Q-Former pre-trained from massive image-text data is also
beneficial for the pre-training on image-region-text data. We name our
framework RegionBLIP. We pre-train RegionBLIP on image-region-text,
point-cloud-text, and point-cloud-region-text data. Experimental results verify
that \Ours{} can preserve the image comprehension capability of BILP-2 and
further gain a comprehension of the newly introduced point cloud modality and
regional objects. The Data, Code, and Pre-trained models will be available at
https://github.com/mightyzau/RegionBLIP.
- Abstract(参考訳): 本研究では,マルチモーダル大規模言語モデル(MLLM)の地域オブジェクトへの拡張について検討する。
そこで本研究では,LLMのソフトプロンプトとして,地域オブジェクトに対応する特徴を抽出することを提案する。
正規画像特徴と不規則点雲特徴から地域特徴を効果的に抽出するために,新しい位置アシスト特徴抽出モジュールを提案する。
さらに、MLLMをゼロからトレーニングするのは非常に時間がかかる。
そこで本稿では,既存の事前学習型MLLMを段階的に拡張して,モダリティとそれらのモダリティの地域的対象を理解することを提案する。
具体的には、印象的なMLLMであるBLIP-2からQ-Formerを凍結し、新たに導入された各モダリティに対して、Q-Former と LLM のモダリティ固有の Lora パラメータを最適化する。
q-formerの凍結により、大量の画像テキストデータを事前トレーニングする必要がなくなる。
大量の画像テキストデータから事前学習した凍結q-formerは、画像領域テキストデータの事前学習にも有用である。
フレームワークを RegionBLIP と名付けます。
我々は、image-region-text、point-cloud-text、point-cloud-region-textデータでregionblipを事前トレーニングする。
Ours{} は BILP-2 のイメージ理解能力を保ち、新たに導入された点雲のモダリティと局所オブジェクトの理解を深めることができる。
Data、Code、Pre-trainedモデルはhttps://github.com/mightyzau/RegionBLIP.comから入手できる。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Empowering Segmentation Ability to Multi-modal Large Language Models [19.685984211930354]
マルチモーダルな大言語モデル(MLLM)をセグメンテーション能力で拡張する。
拡張MLLMは、画像言語プロンプトに対する言語応答を出力し、言語プロンプト内の複雑な質問やクエリがフォーカスする領域をセグメント化することができる。
LLaVASegと呼ばれる新しいMLLMフレームワークを提案する。このフレームワークは,MLLMにユーザによってクエリされたターゲット領域を分割するように指示するチェーン・オブ・シークレット・プロンプト戦略を利用する。
論文 参考訳(メタデータ) (2024-03-21T05:36:25Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Refine and Represent: Region-to-Object Representation Learning [55.70715883351945]
本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
論文 参考訳(メタデータ) (2022-08-25T01:44:28Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。