論文の概要: Towards Unifying Reference Expression Generation and Comprehension
- arxiv url: http://arxiv.org/abs/2210.13076v1
- Date: Mon, 24 Oct 2022 09:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:56:26.943805
- Title: Towards Unifying Reference Expression Generation and Comprehension
- Title(参考訳): 参照表現生成と理解の統一に向けて
- Authors: Duo Zheng, Tao Kong, Ya Jing, Jiaan Wang, Xiaojie Wang
- Abstract要約: 我々は、UniRefという名前のREGとRECの統一モデルを提案する。
画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。
さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。
- 参考スコア(独自算出の注目度): 22.72363956296498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference Expression Generation (REG) and Comprehension (REC) are two highly
correlated tasks. Modeling REG and REC simultaneously for utilizing the
relation between them is a promising way to improve both. However, the problem
of distinct inputs, as well as building connections between them in a single
model, brings challenges to the design and training of the joint model. To
address the problems, we propose a unified model for REG and REC, named UniRef.
It unifies these two tasks with the carefully-designed Image-Region-Text Fusion
layer (IRTF), which fuses the image, region and text via the image
cross-attention and region cross-attention. Additionally, IRTF could generate
pseudo input regions for the REC task to enable a uniform way for sharing the
identical representation space across the REC and REG. We further propose
Vision-conditioned Masked Language Modeling (VMLM) and Text-Conditioned Region
Prediction (TRP) to pre-train UniRef model on multi-granular corpora. The VMLM
and TRP are directly related to REG and REC, respectively, but could help each
other. We conduct extensive experiments on three benchmark datasets, RefCOCO,
RefCOCO+ and RefCOCOg. Experimental results show that our model outperforms
previous state-of-the-art methods on both REG and REC.
- Abstract(参考訳): Reference Expression Generation(REG)とComprehension(REC)は2つの非常に相関したタスクである。
両者の関係を利用するために同時にREGとRECをモデリングすることは、両方を改善するための有望な方法である。
しかし、異なる入力の問題と、それら間の接続を1つのモデルで構築することは、関節モデルの設計と訓練に課題をもたらす。
この問題を解決するために,UniRefというREGとRECの統一モデルを提案する。
画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。
さらにIRTFはRECタスクの擬似入力領域を生成し、RECおよびREG間で同じ表現空間を共有する統一的な方法を可能にする。
さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。
VMLMとTRPはそれぞれREGとRECに直接関連しているが、互いに助け合う可能性がある。
3つのベンチマークデータセット、RefCOCO、RefCOCO+、RefCOCOgについて広範な実験を行った。
実験の結果,REGとRECの両方において,従来の最先端手法よりも優れた結果が得られた。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding [3.8673630752805446]
本稿では,差別的かつ言論に適さない参照表現(REs)を生成するための参照表現生成(REG)手法を提案する。
人体評価の結果,提案する2段階のアプローチが差別的REの創出に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-09T15:33:07Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z) - How Fragile is Relation Extraction under Entity Replacements? [70.34001923252711]
関係抽出(RE)は、テキストコンテキストからエンティティ名間の関係を抽出することを目的としている。
既存の研究によると、REはエンティティ名パターンをモデル化し、テキストコンテキストを無視しながらRE予測を行う。
これは、REモデルはエンティティの置換に対して堅牢か?」という疑問を提起する動機になります。
論文 参考訳(メタデータ) (2023-05-22T23:53:32Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z) - Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。
既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。
本稿では,C2-Matchingを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:40:36Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。