論文の概要: What Goes beyond Multi-modal Fusion in One-stage Referring Expression
Comprehension: An Empirical Study
- arxiv url: http://arxiv.org/abs/2204.07913v1
- Date: Sun, 17 Apr 2022 03:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:11:48.579480
- Title: What Goes beyond Multi-modal Fusion in One-stage Referring Expression
Comprehension: An Empirical Study
- Title(参考訳): 一段階参照表現理解におけるマルチモーダル融合を超えるもの:実証的研究
- Authors: Gen Luo, Yiyi Zhou, Jiamu Sun, Shubin Huang, Xiaoshuai Sun, Qixiang
Ye, Yongjian Wu, Rongrong Ji
- Abstract要約: 我々はSimRECと呼ばれる一段階参照表現理解ネットワークを構築した。
我々は,RECの3つのベンチマークデータセットに対して100以上の実験を行った。
トレーニングのオーバーヘッドとパラメータがはるかに少ないため、SimRECは大規模な事前訓練モデルのセットよりもパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 112.72579084154452
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most of the existing work in one-stage referring expression comprehension
(REC) mainly focuses on multi-modal fusion and reasoning, while the influence
of other factors in this task lacks in-depth exploration. To fill this gap, we
conduct an empirical study in this paper. Concretely, we first build a very
simple REC network called SimREC, and ablate 42 candidate designs/settings,
which covers the entire process of one-stage REC from network design to model
training. Afterwards, we conduct over 100 experimental trials on three
benchmark datasets of REC. The extensive experimental results not only show the
key factors that affect REC performance in addition to multi-modal fusion,
e.g., multi-scale features and data augmentation, but also yield some findings
that run counter to conventional understanding. For example, as a vision and
language (V&L) task, REC does is less impacted by language prior. In addition,
with a proper combination of these findings, we can improve the performance of
SimREC by a large margin, e.g., +27.12% on RefCOCO+, which outperforms all
existing REC methods. But the most encouraging finding is that with much less
training overhead and parameters, SimREC can still achieve better performance
than a set of large-scale pre-trained models, e.g., UNITER and VILLA,
portraying the special role of REC in existing V&L research.
- Abstract(参考訳): 1段階参照表現理解(REC)における既存の研究のほとんどは、主にマルチモーダル融合と推論に焦点を当てているが、このタスクにおける他の要因の影響は、深層探査に欠けている。
このギャップを埋めるため,本論文では経験的研究を行う。
具体的には、まずSimRECと呼ばれる非常に単純なRECネットワークを構築し、42の候補設計/設定を廃止し、ネットワーク設計からモデルトレーニングまでの1段階RECの全プロセスをカバーする。
その後、RECの3つのベンチマークデータセットに対して100以上の実験を行った。
広範な実験結果から, マルチモーダル融合に加えて, マルチスケール機能やデータ拡張など, rec性能に影響を与える重要な要因を示すだけでなく, 従来の理解と相反する知見も得られた。
例えば、ビジョンと言語(V&L)タスクとして、RECは以前の言語の影響を受けない。
さらに、これらの知見を適切に組み合わせることで、既存のREC法よりも優れたRefCOCO+の+27.12%という大きなマージンでSimRECの性能を向上させることができる。
しかし、最も推奨される発見は、トレーニングのオーバーヘッドとパラメータがはるかに少ない場合、SimRECは既存のV&L研究におけるRECの特別な役割を描きながら、UNITERやVILLAのような大規模な事前訓練モデルよりもパフォーマンスが良いことである。
関連論文リスト
- Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval [19.2650103482509]
CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。
私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。
本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
論文 参考訳(メタデータ) (2022-01-08T06:00:22Z) - REPT: Bridging Language Models and Machine Reading Comprehensionvia
Retrieval-Based Pre-training [45.21249008835556]
一般PLMとMRCのギャップを埋めるRetrieval-based Pre-TrainingアプローチであるREPTを提案する。
特に,事前学習中のエビデンス抽出を強化するために,二つの自己監督タスクを導入する。
我々のアプローチは、明示的な監督なしに証拠抽出能力を高めることができる。
論文 参考訳(メタデータ) (2021-05-10T08:54:46Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。