論文の概要: Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation
- arxiv url: http://arxiv.org/abs/2003.08813v1
- Date: Thu, 19 Mar 2020 14:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:34:05.440418
- Title: Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation
- Title(参考訳): 共同参照表現理解とセグメンテーションのためのマルチタスク協調ネットワーク
- Authors: Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng
Deng and Rongrong Ji
- Abstract要約: 表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
- 参考スコア(独自算出の注目度): 135.67558811281984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension (REC) and segmentation (RES) are two
highly-related tasks, which both aim at identifying the referent according to a
natural language expression. In this paper, we propose a novel Multi-task
Collaborative Network (MCN) to achieve a joint learning of REC and RES for the
first time. In MCN, RES can help REC to achieve better language-vision
alignment, while REC can help RES to better locate the referent. In addition,
we address a key challenge in this multi-task setup, i.e., the prediction
conflict, with two innovative designs namely, Consistency Energy Maximization
(CEM) and Adaptive Soft Non-Located Suppression (ASNLS). Specifically, CEM
enables REC and RES to focus on similar visual regions by maximizing the
consistency energy between two tasks. ASNLS supresses the response of unrelated
regions in RES based on the prediction of REC. To validate our model, we
conduct extensive experiments on three benchmark datasets of REC and RES, i.e.,
RefCOCO, RefCOCO+ and RefCOCOg. The experimental results report the significant
performance gains of MCN over all existing methods, i.e., up to +7.13% for REC
and +11.50% for RES over SOTA, which well confirm the validity of our model for
joint REC and RES learning.
- Abstract(参考訳): Referring Expression comprehension (REC) と segmentation (RES) は2つの非常に関連性の高いタスクであり、どちらも自然言語表現に基づいて参照者を特定することを目的としている。
本稿では,RECとRESの協調学習を実現するために,新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
さらに,このマルチタスク構成における重要な課題,すなわち,CEM(Consistency Energy Maximization)とASNLS(Adaptive Soft Non-Located Suppression)という2つの革新的な設計による予測競合に対処する。
具体的には、CEMは2つのタスク間の一貫性エネルギーを最大化することにより、RECとRESが類似した視覚領域に集中できるようにする。
ASNLSはRECの予測に基づいてRESの非関連領域の応答を抑圧する。
我々のモデルを検証するため、RECとRESの3つのベンチマークデータセット、すなわちRefCOCO、RefCOCO+、RefCOCOgについて広範な実験を行った。
実験の結果,既存の手法,すなわちrecは最大7.13%,resは11.50%の性能向上を示し,recとres学習のモデルの有効性を確認した。
関連論文リスト
- Multi-branch Collaborative Learning Network for 3D Visual Grounding [66.67647903507927]
3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。
我々は,3DRECタスクと3DRESタスクに個別のブランチを採用することで,各タスクの特定の情報を学ぶ能力が向上すると主張している。
論文 参考訳(メタデータ) (2024-07-07T13:27:14Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z) - A Comprehensive Survey on Relation Extraction: Recent Advances and New Frontiers [76.51245425667845]
関係抽出(RE)は、基礎となるコンテンツからエンティティ間の関係を識別する。
ディープニューラルネットワークはREの分野を支配しており、顕著な進歩を遂げている。
この調査は、現実世界のREシステムの課題に対処するための研究者の協力的な取り組みを促進することが期待されている。
論文 参考訳(メタデータ) (2023-06-03T08:39:25Z) - Towards Unifying Reference Expression Generation and Comprehension [22.72363956296498]
我々は、UniRefという名前のREGとRECの統一モデルを提案する。
画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。
さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:53:41Z) - Summarization as Indirect Supervision for Relation Extraction [23.98136192661566]
本稿では,関係抽出(RE)を要約式に変換するSuREを提案する。
我々は,要約タスクとREタスクの定式化を本質的に橋渡しする文・関係変換手法を開発した。
3つのデータセットの実験では、フルデータセットと低リソースの両方でSuREの有効性が示されている。
論文 参考訳(メタデータ) (2022-05-19T20:25:29Z) - A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of
One-Stage Referring Expression Comprehension [81.57558029858954]
我々はSimRECと呼ばれる一段階参照表現理解ネットワークを構築した。
我々は,RECの3つのベンチマークデータセットに対して100以上の実験を行った。
トレーニングのオーバーヘッドとパラメータがはるかに少ないため、SimRECは大規模な事前訓練モデルのセットよりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-04-17T03:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。