論文の概要: Referring Expression Comprehension via Cross-Level Multi-Modal Fusion
- arxiv url: http://arxiv.org/abs/2204.09957v1
- Date: Thu, 21 Apr 2022 08:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:54:17.690708
- Title: Referring Expression Comprehension via Cross-Level Multi-Modal Fusion
- Title(参考訳): クロスレベルマルチモーダル融合による表現理解
- Authors: Peihan Miao, Wei Su, Lian Wang, Yongjian Fu, Xi Li
- Abstract要約: 参照式理解(REC)は、所定の参照式によって指定された対象オブジェクトをローカライズすることを目的としている。
本稿では,多層構造の視覚的特徴とテキスト的特徴を段階的に統合する,クロスレベルマルチモーダルフュージョン(CMF)フレームワークを提案する。
RefCOCO、RefCO+、RefCOCOg、ReferItGameデータセットの実験結果は、提案したフレームワークが最先端の手法よりも大幅なパフォーマンス向上を実現していることを示している。
- 参考スコア(独自算出の注目度): 16.192567026502594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important and challenging problem in vision-language tasks, referring
expression comprehension (REC) aims to localize the target object specified by
a given referring expression. Recently, most of the state-of-the-art REC
methods mainly focus on multi-modal fusion while overlooking the inherent
hierarchical information contained in visual and language encoders. Considering
that REC requires visual and textual hierarchical information for accurate
target localization, and encoders inherently extract features in a hierarchical
fashion, we propose to effectively utilize the rich hierarchical information
contained in different layers of visual and language encoders. To this end, we
design a Cross-level Multi-modal Fusion (CMF) framework, which gradually
integrates visual and textual features of multi-layer through intra- and
inter-modal. Experimental results on RefCOCO, RefCOCO+, RefCOCOg, and
ReferItGame datasets demonstrate the proposed framework achieves significant
performance improvements over state-of-the-art methods.
- Abstract(参考訳): 視覚言語タスクにおける重要かつ困難な問題として、表現理解(REC)は、与えられた参照表現によって指定された対象対象をローカライズすることを目的としている。
近年、最先端のREC手法のほとんどは、視覚および言語エンコーダに含まれる固有階層情報を見越しながら、主にマルチモーダル融合に焦点を当てている。
視覚的, テキスト的階層情報を必要とすること, エンコーダが本質的に特徴を階層的に抽出することを考えると, 視覚的, 言語的エンコーダの各層に含まれるリッチな階層情報を有効に活用することを提案する。
そこで我々は,多層構造の視覚的特徴とテキスト的特徴を段階的に統合する,クロスレベル多モード融合(CMF)フレームワークを設計する。
RefCOCO、RefCOCO+、RefCOCOg、ReferItGameデータセットの実験結果は、提案したフレームワークが最先端の手法よりも大幅なパフォーマンス向上を実現していることを示している。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z) - A Discriminative Vectorial Framework for Multi-modal Feature
Representation [19.158947368297557]
知識発見におけるマルチモーダル特徴表現のための識別フレームワークを提案する。
マルチモーダルハッシュ(MH)と識別相関(DCM)分析を採用しています。
このフレームワークは最先端統計機械学習(s.m.)よりも優れている。
そしてディープネットワークニューラルネットワーク(DNN)アルゴリズム。
論文 参考訳(メタデータ) (2021-03-09T18:18:06Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。