論文の概要: OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects
- arxiv url: http://arxiv.org/abs/2410.01261v1
- Date: Wed, 02 Oct 2024 06:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:22:32.557078
- Title: OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects
- Title(参考訳): OCC-MLLM:Occluded Objects理解のためのマルチモーダル大言語モデルの構築
- Authors: Wenmo Qiu, Xinhan Di,
- Abstract要約: 本稿では,新たに設計されたビジュアルエンコーダを用いて,RGB画像の隠蔽対象を理解する新しいマルチモーダルモデルを提案する。
また、大規模視覚言語ペアデータセットを導入し、大規模視覚言語マルチモーダルモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 2.850097504458451
- License:
- Abstract: There is a gap in the understanding of occluded objects in existing large-scale visual language multi-modal models. Current state-of-the-art multimodal models fail to provide satisfactory results in describing occluded objects for visual-language multimodal models through universal visual encoders. Another challenge is the limited number of datasets containing image-text pairs with a large number of occluded objects. Therefore, we introduce a novel multimodal model that applies a newly designed visual encoder to understand occluded objects in RGB images. We also introduce a large-scale visual-language pair dataset for training large-scale visual-language multimodal models and understanding occluded objects. We start our experiments comparing with the state-of-the-art models.
- Abstract(参考訳): 既存の大規模視覚言語マルチモーダルモデルでは、隠蔽対象の理解にギャップがある。
現在の最先端マルチモーダルモデルは、普遍的なビジュアルエンコーダを通して視覚言語マルチモーダルモデルのための隠蔽オブジェクトを記述するのに十分な結果を与えられなかった。
もう1つの課題は、多数の隠蔽されたオブジェクトを持つ画像とテキストのペアを含むデータセットの限られた数である。
そこで我々は,新たに設計されたビジュアルエンコーダを用いて,RGB画像の隠蔽対象を理解する新しいマルチモーダルモデルを提案する。
また、大規模視覚言語ペアデータセットを導入し、大規模視覚言語マルチモーダルモデルを訓練し、隠蔽対象を理解する。
私たちは、最先端のモデルと比較し、実験を始めます。
関連論文リスト
- From Redundancy to Relevance: Enhancing Explainability in Multimodal Large Language Models [34.59056945192777]
ブラックボックス設計は、視覚言語モデルの解釈可能性を妨げる。
本稿では,インタラクションメカニズムを可視化する情報フロー手法を提案する。
このアプローチは、複数のモデルにわたる実験を通じて検証されている。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。
オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文 参考訳(メタデータ) (2024-05-23T14:24:23Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。