論文の概要: Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension
- arxiv url: http://arxiv.org/abs/2204.09957v3
- Date: Tue, 12 Mar 2024 08:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:46:13.367133
- Title: Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension
- Title(参考訳): Referring Expression Comprehensionのための自己ペースト多重モード相互相互作用モデリング
- Authors: Peihan Miao, Wei Su, Gaoang Wang, Xuewei Li, Xi Li
- Abstract要約: 参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.000045864213327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important and challenging problem in vision-language tasks, referring
expression comprehension (REC) generally requires a large amount of
multi-grained information of visual and linguistic modalities to realize
accurate reasoning. In addition, due to the diversity of visual scenes and the
variation of linguistic expressions, some hard examples have much more abundant
multi-grained information than others. How to aggregate multi-grained
information from different modalities and extract abundant knowledge from hard
examples is crucial in the REC task. To address aforementioned challenges, in
this paper, we propose a Self-paced Multi-grained Cross-modal Interaction
Modeling framework, which improves the language-to-vision localization ability
through innovations in network structure and learning mechanism. Concretely, we
design a transformer-based multi-grained cross-modal attention, which
effectively utilizes the inherent multi-grained information in visual and
linguistic encoders. Furthermore, considering the large variance of samples, we
propose a self-paced sample informativeness learning to adaptively enhance the
network learning for samples containing abundant multi-grained information. The
proposed framework significantly outperforms state-of-the-art methods on widely
used datasets, such as RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame datasets,
demonstrating the effectiveness of our method.
- Abstract(参考訳): 視覚言語タスクにおける重要かつ困難な問題として、表現理解(REC)を参照するには、正確な推論を実現するために、視覚的・言語的モダリティの多義的な情報が多い。
加えて、視覚的なシーンの多様性と言語表現のバリエーションにより、いくつかの難しい例は、他のものよりも豊富な多彩な情報を持っている。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
上記の課題に対処するため,本稿では,ネットワーク構造と学習機構の革新を通じて言語間ローカライゼーション能力を向上させるセルフペースト多言語相互相互作用モデリングフレームワークを提案する。
具体的には,視覚および言語エンコーダに固有の多面的情報を有効に活用するトランスフォーマティブ型多面的クロスモーダルアテンションの設計を行う。
さらに,サンプルのばらつきが大きいことを考慮し,多点情報を含むサンプルのネットワーク学習を適応的に強化する自己ペースサンプル情報化学習を提案する。
提案フレームワークは,RefCOCO,RefCOCO+,RefCOCOg,ReferItGameなどの広く使用されているデータセット上で,最先端の手法よりも優れ,本手法の有効性を示す。
関連論文リスト
- An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。