論文の概要: Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection
- arxiv url: http://arxiv.org/abs/2308.15846v1
- Date: Wed, 30 Aug 2023 08:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:26:31.502464
- Title: Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection
- Title(参考訳): オープン語彙オブジェクト検出のためのマルチモーダルコンテキスト知識の探索
- Authors: Yifan Xu, Mengdan Zhang, Xiaoshan Yang, Changsheng Xu
- Abstract要約: 教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
- 参考スコア(独自算出の注目度): 72.36017150922504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we for the first time explore helpful multi-modal contextual
knowledge to understand novel categories for open-vocabulary object detection
(OVD). The multi-modal contextual knowledge stands for the joint relationship
across regions and words. However, it is challenging to incorporate such
multi-modal contextual knowledge into OVD. The reason is that previous
detection frameworks fail to jointly model multi-modal contextual knowledge, as
object detectors only support vision inputs and no caption description is
provided at test time. To this end, we propose a multi-modal contextual
knowledge distillation framework, MMC-Det, to transfer the learned contextual
knowledge from a teacher fusion transformer with diverse multi-modal masked
language modeling (D-MLM) to a student detector. The diverse multi-modal masked
language modeling is realized by an object divergence constraint upon
traditional multi-modal masked language modeling (MLM), in order to extract
fine-grained region-level visual contexts, which are vital to object detection.
Extensive experiments performed upon various detection datasets show the
effectiveness of our multi-modal context learning strategy, where our approach
well outperforms the recent state-of-the-art methods.
- Abstract(参考訳): 本稿では,open-vocabulary object detection (ovd) の新たなカテゴリを理解するための有用なマルチモーダル文脈知識を初めて探究する。
マルチモーダルな文脈知識は、地域と単語間の共同関係を表す。
しかし、そのようなマルチモーダルな文脈知識をOVDに組み込むことは困難である。
この理由は、オブジェクト検出器が視覚入力のみをサポートし、テスト時にキャプション記述が提供されないため、以前の検出フレームワークがマルチモーダルな文脈知識を共同モデル化できないためである。
そこで,本稿では,様々なマルチモーダルマスキング言語モデル(d-mlm)を用いて教師融合トランスフォーマタから学習した文脈知識を学生検出器に転送するマルチモーダル文脈知識蒸留フレームワークmmc-detを提案する。
従来のマルチモーダルマスキング言語モデリング (MLM) に基づくオブジェクト分散制約により, オブジェクト検出に不可欠な, きめ細かい領域レベルの視覚的コンテキストを抽出するために, 多様なマルチモーダルマスキング言語モデリングを実現する。
様々な検出データセットを用いて行った大規模な実験は、我々の多モード文脈学習戦略の有効性を示している。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。