Fugu-MT 論文翻訳(概要): Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection

論文の概要: Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection

arxiv url: http://arxiv.org/abs/2205.04072v1
Date: Mon, 9 May 2022 07:03:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-10 15:45:03.348447
Title: Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection
Title（参考訳）: beyond bounding box: オブジェクト検出のためのマルチモーダル知識学習
Authors: Weixin Feng, Xingyuan Bu, Chenchen Zhang, Xubin Li
Abstract要約: 我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
参考スコア（独自算出の注目度）: 3.785123406103386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal supervision has achieved promising results in many visual language understanding tasks, where the language plays an essential role as a hint or context for recognizing and locating instances. However, due to the defects of the human-annotated language corpus, multimodal supervision remains unexplored in fully supervised object detection scenarios. In this paper, we take advantage of language prompt to introduce effective and unbiased linguistic supervision into object detection, and propose a new mechanism called multimodal knowledge learning (\textbf{MKL}), which is required to learn knowledge from language supervision. Specifically, we design prompts and fill them with the bounding box annotations to generate descriptions containing extensive hints and context for instances recognition and localization. The knowledge from language is then distilled into the detection model via maximizing cross-modal mutual information in both image- and object-level. Moreover, the generated descriptions are manipulated to produce hard negatives to further boost the detector performance. Extensive experiments demonstrate that the proposed method yields a consistent performance gain by 1.6\% $\sim$ 2.1\% and achieves state-of-the-art on MS-COCO and OpenImages datasets.
Abstract（参考訳）: マルチモーダル監視は、多くの視覚的言語理解タスクにおいて有望な結果を達成している。しかしながら、人間の注釈付き言語コーパスの欠陥のため、完全に管理されたオブジェクト検出シナリオでは、マルチモーダル監視は未探索のままである。本稿では,オブジェクト検出に効果的で偏りのない言語指導を導入するための言語プロンプトを活用し,言語指導から知識を学ぶために必要なマルチモーダル知識学習(\textbf{MKL})と呼ばれる新しいメカニズムを提案する。具体的には、インスタンス認識とローカライゼーションのための広範囲なヒントとコンテキストを含む記述を生成するために、プロンプトを設計し、バウンディングボックスアノテーションで満たす。言語からの知識は、画像レベルとオブジェクトレベルの相互情報を最大化することで、検出モデルに蒸留される。さらに、生成された記述を操作して強陰性を生成し、検出器の性能をさらに向上させる。実験の結果,提案手法は,MS-COCO と OpenImages のデータセットに対して 1.6 % $\sim$ 2.1 % で一貫した性能向上を実現した。

関連論文リスト

KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model [31.59640895434506]
キーポイントは、構造認識、ピクセルレベル、オブジェクトのコンパクトな表現として、きめ細かい画像解析、オブジェクトの検索、行動認識などのアプリケーションにおいて重要な役割を果たす。本稿では,KptLLM++を提案する。KptLLM++は,汎用的なキーポイント理解のために設計された,新しいマルチモーダルな大規模言語モデルである。さまざまなコンテキストにまたがるキーポイント検出を統一することにより、KptLLM++は、より効果的なヒューマンとAIのコラボレーションを促進する、高度なインターフェースとしての地位を確立している。
論文参考訳（メタデータ） (2025-07-15T08:52:28Z)
Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。 CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:54Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文参考訳（メタデータ） (2024-10-14T07:56:51Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文参考訳（メタデータ） (2023-12-08T09:02:45Z)
LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文参考訳（メタデータ） (2023-11-29T12:41:55Z)
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文参考訳（メタデータ） (2023-08-30T08:33:13Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-10T14:25:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。