論文の概要: Grounded Image Text Matching with Mismatched Relation Reasoning
- arxiv url: http://arxiv.org/abs/2308.01236v2
- Date: Fri, 4 Aug 2023 17:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 10:15:53.543150
- Title: Grounded Image Text Matching with Mismatched Relation Reasoning
- Title(参考訳): ミスマッチ関係推論を用いた接地画像テキストマッチング
- Authors: Yu Wu, Yana Wei, Haozhe Wang, Yongfei Liu, Sibei Yang, Xuming He
- Abstract要約: GITM-MR(Gunded Image Text Matching with Mismatched Relation)は,新しい視覚言語共同作業である。
GITM-MRは、式が画像を記述するかどうかを最初に決定するためにモデルを必要とし、次に参照オブジェクトをローカライズするか、テキストのミスマッチ部分をグラウンドする。
本稿では、双方向メッセージ伝搬による関係認識推論を組み込んだRCRN(Relation-sensitive Cor correspondence Reasoning Network)を提案する。
- 参考スコア(独自算出の注目度): 39.524420144738684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Grounded Image Text Matching with Mismatched Relation
(GITM-MR), a novel visual-linguistic joint task that evaluates the relation
understanding capabilities of transformer-based pre-trained models. GITM-MR
requires a model to first determine if an expression describes an image, then
localize referred objects or ground the mismatched parts of the text. We
provide a benchmark for evaluating pre-trained models on this task, with a
focus on the challenging settings of limited data and out-of-distribution
sentence lengths. Our evaluation demonstrates that pre-trained models lack data
efficiency and length generalization ability. To address this, we propose the
Relation-sensitive Correspondence Reasoning Network (RCRN), which incorporates
relation-aware reasoning via bi-directional message propagation guided by
language structure. RCRN can be interpreted as a modular program and delivers
strong performance in both length generalization and data efficiency.
- Abstract(参考訳): 本稿では, トランスフォーマティブ型事前学習モデルの関係理解能力を評価する新しい視覚言語協調作業である, ミスマッチ関係を用いた接地画像テキストマッチング (gitm-mr) を提案する。
GITM-MRは、式が画像を記述するかどうかを最初に決定するためにモデルを必要とし、次に参照オブジェクトをローカライズするか、テキストのミスマッチ部分をグラウンドする。
このタスクで事前訓練されたモデルを評価するためのベンチマークを提供し、限られたデータと配布外文長の挑戦的な設定に焦点をあてる。
本評価は,事前学習モデルにデータ効率と長さ一般化能力が欠けていることを示す。
そこで本研究では,言語構造によって導かれる双方向メッセージ伝搬による関係認識推論を組み込んだ関係感応対応推論ネットワーク(rcrn)を提案する。
RCRNはモジュラープログラムとして解釈でき、長さの一般化とデータ効率の両面で高い性能を提供する。
関連論文リスト
- Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition [36.59116507158687]
STR(RCMSTR)のためのコントラスト学習とマスケ画像モデリングの統合フレームワークを提案する。
提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-18T01:11:47Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - RDR: the Recap, Deliberate, and Respond Method for Enhanced Language
Understanding [6.738409533239947]
Recap、Deliberate、Respond(RDR)パラダイムは、ニューラルネットワークパイプラインに3つの異なる目的を組み込むことで、この問題に対処する。
これら3つのモデルをカスケードすることにより、ベンチマークをゲームする可能性を軽減し、基盤となるセマンティックパターンをキャプチャする堅牢な方法を確立する。
その結果,標準基準値の最大2%向上とともに,競争基準値と比較して性能が向上した。
論文 参考訳(メタデータ) (2023-12-15T16:41:48Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Enhancing Pre-trained Models with Text Structure Knowledge for Question
Generation [2.526624977753083]
テキスト構造を応答位置と構文依存としてモデル化し,これらの制約に対処するために応答局所性モデリングと構文マスクアテンションを提案する。
SQuADデータセットの実験により、提案した2つのモジュールは、トレーニング済みの強力なモデルであるProphetNetよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2022-09-09T08:33:47Z) - Improving Distantly Supervised Relation Extraction by Natural Language
Inference [9.181270251524866]
本稿では,既存の知識ベースから遠ざかる監視と,事前学習した言語モデルから他のタスクへ間接的に監督するDSRE-NLIフレームワークを提案する。
DSRE-NLIは、半自動的関係言語化(SARV)機構により、市販の自然言語推論(NLI)エンジンをエネルギ化し、間接的な監視を提供する。
2つのシンプルで効果的なデータ統合戦略により、トレーニングデータの質が大幅に向上する。
論文 参考訳(メタデータ) (2022-07-31T02:48:34Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。