論文の概要: PerceptionGPT: Effectively Fusing Visual Perception into LLM
- arxiv url: http://arxiv.org/abs/2311.06612v1
- Date: Sat, 11 Nov 2023 16:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:42:52.233176
- Title: PerceptionGPT: Effectively Fusing Visual Perception into LLM
- Title(参考訳): 知覚GPT:視覚知覚をLLMに効果的に融合させる
- Authors: Renjie Pi, Lewei Yao, Jiahui Gao, Jipeng Zhang, Tong Zhang
- Abstract要約: 視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。
本稿では,視覚的知覚能力を持つVLLMを効率よく装備するPerceptionGPTという新しいエンドツーエンドフレームワークを提案する。
本手法は,視覚出力を離散トークンとして定式化する従来の手法によるトレーニングの難しさを著しく軽減する。
- 参考スコア(独自算出の注目度): 31.34127196055722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of visual inputs with large language models (LLMs) has led to
remarkable advancements in multi-modal capabilities, giving rise to visual
large language models (VLLMs). However, effectively harnessing VLLMs for
intricate visual perception tasks remains a challenge. In this paper, we
present a novel end-to-end framework named PerceptionGPT, which efficiently and
effectively equips the VLLMs with visual perception abilities by leveraging the
representation power of LLMs' token embedding. Our proposed method treats the
token embedding of the LLM as the carrier of spatial information, then leverage
lightweight visual task encoders and decoders to perform visual perception
tasks (e.g., detection, segmentation). Our approach significantly alleviates
the training difficulty suffered by previous approaches that formulate the
visual outputs as discrete tokens, and enables achieving superior performance
with fewer trainable parameters, less training data and shorted training time.
Moreover, as only one token embedding is required to decode the visual outputs,
the resulting sequence length during inference is significantly reduced.
Consequently, our approach enables accurate and flexible representations,
seamless integration of visual perception tasks, and efficient handling of a
multiple of visual outputs. We validate the effectiveness and efficiency of our
approach through extensive experiments. The results demonstrate significant
improvements over previous methods with much fewer trainable parameters and GPU
hours, which facilitates future research in enabling LLMs with visual
perception abilities.
- Abstract(参考訳): 視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。
しかしながら、複雑な視覚知覚タスクにVLLMを効果的に活用することは課題である。
本稿では,LLMのトークン埋め込みの表現力を生かして,VLLMを視覚的知覚能力に効率よく効果的に装備する,PerceptionGPTという新しいエンドツーエンドフレームワークを提案する。
提案手法は, LLMのトークン埋め込みを空間情報のキャリアとして扱い, 軽量な視覚タスクエンコーダとデコーダを利用して視覚知覚タスク(例えば, 検出, セグメンテーション)を実行する。
このアプローチは,視覚出力を離散的なトークンとして定式化した従来のアプローチが経験したトレーニングの難しさを著しく軽減し,トレーニング可能なパラメータが少なく,トレーニングデータが少なく,トレーニング時間の短縮によって優れたパフォーマンスを実現する。
さらに、視覚的出力をデコードするために1つのトークン埋め込みが必要なため、推論中のシーケンス長が大幅に削減される。
これにより,高精度かつ柔軟な表現,視覚知覚タスクのシームレスな統合,複数の視覚出力の効率的な処理が可能となる。
我々はこのアプローチの有効性と効率を広範囲な実験によって検証する。
その結果、トレーニング可能なパラメータやGPU時間を大幅に削減した従来の手法よりも大幅に改善され、視覚的知覚能力を持つLLMの実現に向けた今後の研究が促進された。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference [46.00657360369715]
LVLM(Large Vision-Language Models)は通常、視覚的な命令チューニングを通じて視覚能力を学ぶ。
認知的中核として機能するLDMにおける類似のテクスト視覚領域の存在について検討する。
本稿では,視覚領域外における非臨界層を除去し,性能損失を最小限に抑える,新しい視覚領域ベースプルーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:44:47Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。