論文の概要: F-LMM: Grounding Frozen Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2406.05821v1
- Date: Sun, 9 Jun 2024 15:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:57:33.303204
- Title: F-LMM: Grounding Frozen Large Multimodal Models
- Title(参考訳): F-LMM:凍結型大規模マルチモーダルモデル
- Authors: Size Wu, Sheng Jin, Wenwei Zhang, Lumin Xu, Wentao Liu, Wei Li, Chen Change Loy,
- Abstract要約: 我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
- 参考スコア(独自算出の注目度): 53.8059045627934
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Endowing Large Multimodal Models (LMMs) with visual grounding capability can significantly enhance AIs' understanding of the visual world and their interaction with humans. However, existing methods typically fine-tune the parameters of LMMs to learn additional segmentation tokens and overfit grounding and segmentation datasets. Such a design would inevitably cause a catastrophic diminution in the indispensable conversational capability of general AI assistants. In this paper, we comprehensively evaluate state-of-the-art grounding LMMs across a suite of multimodal question-answering benchmarks, observing pronounced performance drops that indicate vanishing general knowledge comprehension and weakened instruction following ability. To address this issue, we present F-LMM -- grounding frozen off-the-shelf LMMs in human-AI conversations -- a straightforward yet effective design based on the fact that word-pixel correspondences conducive to visual grounding inherently exist in the attention weights of well-trained LMMs. Using only a few trainable CNN layers, we can translate word-pixel attention weights to mask logits, which a SAM-based mask refiner can further optimise. Our F-LMM neither learns special segmentation tokens nor utilises high-quality grounded instruction-tuning data, but achieves competitive performance on referring expression segmentation and panoptic narrative grounding benchmarks while completely preserving LMMs' original conversational ability. Additionally, with instruction-following ability preserved and grounding ability obtained, our F-LMM can perform visual chain-of-thought reasoning and better resist object hallucinations.
- Abstract(参考訳): 視覚的接地能力を備えた大規模マルチモーダルモデル(LMM)の活用は、視覚世界に対するAIの理解と人間との相互作用を著しく向上させる。
しかし、既存の手法では、LMMのパラメータを微調整して、追加のセグメンテーショントークンを学習し、グラウンドとセグメンテーションデータセットを過度に適合させるのが一般的である。
このような設計は、一般的なAIアシスタントの必須の会話能力において、必然的に壊滅的な縮小を引き起こすだろう。
本稿では,マルチモーダルな質問応答ベンチマークを用いて,一般知識の理解の消失と命令追従能力の弱化を示す顕著な性能低下を観察し,最先端のLMMを網羅的に評価する。
この問題に対処するために、F-LMM(F-LMM)という、人間とAIの会話において、解凍した既成のLMMをグラウンド化する -- は、十分に訓練されたLMMの注意重みに本質的に視覚的接地によって導かれる単語-ピクセル対応が本質的に存在するという事実に基づいて、単純かつ効果的な設計である。
トレーニング可能なCNN層を少しだけ使用すれば、ワードピクセルの注意重みをマスクロジットに変換することができ、SAMベースのマスクリファインダはさらに最適化できる。
我々のF-LMMは、特別なセグメンテーショントークンを学習したり、高品質なグラウンドトレーニングデータを利用したりはしないが、LMMの本来の会話能力を完全に保ちながら、表現セグメンテーションとパノプティックな物語グラウンドニングベンチマークの参照において競合性能を達成する。
さらに,F-LMMでは,指示追従能力の保持と接地能力の確保により,視覚的連鎖推論を行え,対物幻覚に対する抵抗性が向上する。
関連論文リスト
- An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision [29.004844323516412]
現在の大規模マルチモーダルモデル(LMM)は、言語コンポーネントと視覚的エンティティを関連付ける必要があるため、基盤化の課題に直面している。
グラウンド化能力は、明示的なグラウンド化の監督なしに訓練されたLMMに現われることが判明した。
拡散型ビジュアルエンコーダを用いたLMMであるDIFFLMMを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:55Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。