論文の概要: F-LMM: Grounding Frozen Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2406.05821v1
- Date: Sun, 9 Jun 2024 15:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:57:33.303204
- Title: F-LMM: Grounding Frozen Large Multimodal Models
- Title(参考訳): F-LMM:凍結型大規模マルチモーダルモデル
- Authors: Size Wu, Sheng Jin, Wenwei Zhang, Lumin Xu, Wentao Liu, Wei Li, Chen Change Loy,
- Abstract要約: 我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
- 参考スコア(独自算出の注目度): 53.8059045627934
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Endowing Large Multimodal Models (LMMs) with visual grounding capability can significantly enhance AIs' understanding of the visual world and their interaction with humans. However, existing methods typically fine-tune the parameters of LMMs to learn additional segmentation tokens and overfit grounding and segmentation datasets. Such a design would inevitably cause a catastrophic diminution in the indispensable conversational capability of general AI assistants. In this paper, we comprehensively evaluate state-of-the-art grounding LMMs across a suite of multimodal question-answering benchmarks, observing pronounced performance drops that indicate vanishing general knowledge comprehension and weakened instruction following ability. To address this issue, we present F-LMM -- grounding frozen off-the-shelf LMMs in human-AI conversations -- a straightforward yet effective design based on the fact that word-pixel correspondences conducive to visual grounding inherently exist in the attention weights of well-trained LMMs. Using only a few trainable CNN layers, we can translate word-pixel attention weights to mask logits, which a SAM-based mask refiner can further optimise. Our F-LMM neither learns special segmentation tokens nor utilises high-quality grounded instruction-tuning data, but achieves competitive performance on referring expression segmentation and panoptic narrative grounding benchmarks while completely preserving LMMs' original conversational ability. Additionally, with instruction-following ability preserved and grounding ability obtained, our F-LMM can perform visual chain-of-thought reasoning and better resist object hallucinations.
- Abstract(参考訳): 視覚的接地能力を備えた大規模マルチモーダルモデル(LMM)の活用は、視覚世界に対するAIの理解と人間との相互作用を著しく向上させる。
しかし、既存の手法では、LMMのパラメータを微調整して、追加のセグメンテーショントークンを学習し、グラウンドとセグメンテーションデータセットを過度に適合させるのが一般的である。
このような設計は、一般的なAIアシスタントの必須の会話能力において、必然的に壊滅的な縮小を引き起こすだろう。
本稿では,マルチモーダルな質問応答ベンチマークを用いて,一般知識の理解の消失と命令追従能力の弱化を示す顕著な性能低下を観察し,最先端のLMMを網羅的に評価する。
この問題に対処するために、F-LMM(F-LMM)という、人間とAIの会話において、解凍した既成のLMMをグラウンド化する -- は、十分に訓練されたLMMの注意重みに本質的に視覚的接地によって導かれる単語-ピクセル対応が本質的に存在するという事実に基づいて、単純かつ効果的な設計である。
トレーニング可能なCNN層を少しだけ使用すれば、ワードピクセルの注意重みをマスクロジットに変換することができ、SAMベースのマスクリファインダはさらに最適化できる。
我々のF-LMMは、特別なセグメンテーショントークンを学習したり、高品質なグラウンドトレーニングデータを利用したりはしないが、LMMの本来の会話能力を完全に保ちながら、表現セグメンテーションとパノプティックな物語グラウンドニングベンチマークの参照において競合性能を達成する。
さらに,F-LMMでは,指示追従能力の保持と接地能力の確保により,視覚的連鎖推論を行え,対物幻覚に対する抵抗性が向上する。
関連論文リスト
- SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs [3.8318712731382054]
LMMの中間層からコンテキストトークンを埋め込む洗練された方法であるContextualLensを導入する。
このアプローチは、行動やOCRを含む様々なカテゴリーにおける幻覚の検出と接地を著しく改善する。
我々の貢献は、より信頼性が高く解釈可能なマルチモーダルモデルへの道を開いた。
論文 参考訳(メタデータ) (2024-11-28T14:47:55Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision [29.004844323516412]
現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。
拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:55Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。