論文の概要: A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of
One-Stage Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2204.07913v2
- Date: Thu, 14 Sep 2023 13:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:49:00.223628
- Title: A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of
One-Stage Referring Expression Comprehension
- Title(参考訳): 大規模プレトレーニング時代の生き残り--一段階参照表現理解の実証的研究
- Authors: Gen Luo, Yiyi Zhou, Jiamu Sun, Xiaoshuai Sun, Rongrong Ji
- Abstract要約: 我々はSimRECと呼ばれる一段階参照表現理解ネットワークを構築した。
我々は,RECの3つのベンチマークデータセットに対して100以上の実験を行った。
トレーニングのオーバーヘッドとパラメータがはるかに少ないため、SimRECは大規模な事前訓練モデルのセットよりもパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 81.57558029858954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most of the existing work in one-stage referring expression comprehension
(REC) mainly focuses on multi-modal fusion and reasoning, while the influence
of other factors in this task lacks in-depth exploration. To fill this gap, we
conduct an empirical study in this paper. Concretely, we first build a very
simple REC network called SimREC, and ablate 42 candidate designs/settings,
which covers the entire process of one-stage REC from network design to model
training. Afterwards, we conduct over 100 experimental trials on three
benchmark datasets of REC. The extensive experimental results not only show the
key factors that affect REC performance in addition to multi-modal fusion,
e.g., multi-scale features and data augmentation, but also yield some findings
that run counter to conventional understanding. For example, as a vision and
language (V&L) task, REC does is less impacted by language prior. In addition,
with a proper combination of these findings, we can improve the performance of
SimREC by a large margin, e.g., +27.12% on RefCOCO+, which outperforms all
existing REC methods. But the most encouraging finding is that with much less
training overhead and parameters, SimREC can still achieve better performance
than a set of large-scale pre-trained models, e.g., UNITER and VILLA,
portraying the special role of REC in existing V&L research.
- Abstract(参考訳): 1段階参照表現理解(REC)における既存の研究のほとんどは、主にマルチモーダル融合と推論に焦点を当てているが、このタスクにおける他の要因の影響は、深層探査に欠けている。
このギャップを埋めるため,本論文では経験的研究を行う。
具体的には、まずSimRECと呼ばれる非常に単純なRECネットワークを構築し、42の候補設計/設定を廃止し、ネットワーク設計からモデルトレーニングまでの1段階RECの全プロセスをカバーする。
その後、RECの3つのベンチマークデータセットに対して100以上の実験を行った。
広範な実験結果から, マルチモーダル融合に加えて, マルチスケール機能やデータ拡張など, rec性能に影響を与える重要な要因を示すだけでなく, 従来の理解と相反する知見も得られた。
例えば、ビジョンと言語(V&L)タスクとして、RECは以前の言語の影響を受けない。
さらに、これらの知見を適切に組み合わせることで、既存のREC法よりも優れたRefCOCO+の+27.12%という大きなマージンでSimRECの性能を向上させることができる。
しかし、最も推奨される発見は、トレーニングのオーバーヘッドとパラメータがはるかに少ない場合、SimRECは既存のV&L研究におけるRECの特別な役割を描きながら、UNITERやVILLAのような大規模な事前訓練モデルよりもパフォーマンスが良いことである。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions [3.3235895997314726]
本稿では,説明文(E),キャプション(C),提案文(S)を付加した初のビジュアルレコメンダであるV-RECSについて述べる。
V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。
論文 参考訳(メタデータ) (2024-06-21T15:50:10Z) - Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction [11.535892987373947]
関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。
大規模言語モデル(LLM)は、様々なタスクにおいて、コンテキスト内学習能力を印象的に示している。
LLMは、ほとんどの教師付き細調整RE法と比較して性能が劣る。
論文 参考訳(メタデータ) (2024-04-27T07:12:52Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。