論文の概要: Referring Expression Comprehension via Cross-Level Multi-Modal Fusion
- arxiv url: http://arxiv.org/abs/2204.09957v1
- Date: Thu, 21 Apr 2022 08:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:54:17.690708
- Title: Referring Expression Comprehension via Cross-Level Multi-Modal Fusion
- Title(参考訳): クロスレベルマルチモーダル融合による表現理解
- Authors: Peihan Miao, Wei Su, Lian Wang, Yongjian Fu, Xi Li
- Abstract要約: 参照式理解(REC)は、所定の参照式によって指定された対象オブジェクトをローカライズすることを目的としている。
本稿では,多層構造の視覚的特徴とテキスト的特徴を段階的に統合する,クロスレベルマルチモーダルフュージョン(CMF)フレームワークを提案する。
RefCOCO、RefCO+、RefCOCOg、ReferItGameデータセットの実験結果は、提案したフレームワークが最先端の手法よりも大幅なパフォーマンス向上を実現していることを示している。
- 参考スコア(独自算出の注目度): 16.192567026502594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important and challenging problem in vision-language tasks, referring
expression comprehension (REC) aims to localize the target object specified by
a given referring expression. Recently, most of the state-of-the-art REC
methods mainly focus on multi-modal fusion while overlooking the inherent
hierarchical information contained in visual and language encoders. Considering
that REC requires visual and textual hierarchical information for accurate
target localization, and encoders inherently extract features in a hierarchical
fashion, we propose to effectively utilize the rich hierarchical information
contained in different layers of visual and language encoders. To this end, we
design a Cross-level Multi-modal Fusion (CMF) framework, which gradually
integrates visual and textual features of multi-layer through intra- and
inter-modal. Experimental results on RefCOCO, RefCOCO+, RefCOCOg, and
ReferItGame datasets demonstrate the proposed framework achieves significant
performance improvements over state-of-the-art methods.
- Abstract(参考訳): 視覚言語タスクにおける重要かつ困難な問題として、表現理解(REC)は、与えられた参照表現によって指定された対象対象をローカライズすることを目的としている。
近年、最先端のREC手法のほとんどは、視覚および言語エンコーダに含まれる固有階層情報を見越しながら、主にマルチモーダル融合に焦点を当てている。
視覚的, テキスト的階層情報を必要とすること, エンコーダが本質的に特徴を階層的に抽出することを考えると, 視覚的, 言語的エンコーダの各層に含まれるリッチな階層情報を有効に活用することを提案する。
そこで我々は,多層構造の視覚的特徴とテキスト的特徴を段階的に統合する,クロスレベル多モード融合(CMF)フレームワークを設計する。
RefCOCO、RefCOCO+、RefCOCOg、ReferItGameデータセットの実験結果は、提案したフレームワークが最先端の手法よりも大幅なパフォーマンス向上を実現していることを示している。
関連論文リスト
- An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。