論文の概要: Who are you referring to? Weakly supervised coreference resolution with
multimodal grounding
- arxiv url: http://arxiv.org/abs/2211.14563v1
- Date: Sat, 26 Nov 2022 13:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:11:30.541059
- Title: Who are you referring to? Weakly supervised coreference resolution with
multimodal grounding
- Title(参考訳): 誰の事ですか?
マルチモーダルグラウンドを用いた弱教師付きコリファレンス解像度
- Authors: Arushi Goel, Basura Fernando, Frank Keller and Hakan Bilen
- Abstract要約: 参照解決は、テキスト内の同じエンティティを参照する単語やフレーズを識別することを目的としている。
既存の画像テキストデータセットの多くは、コアフェレント表現のない短い文を含んでいる。
画像とテキストのペアによる弱教師付きグラウンドリングと,事前の言語知識を用いた正規化により,コア参照チェーンの同定を学習する手法を提案する。
- 参考スコア(独自算出の注目度): 44.502102006343094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coreference resolution aims at identifying words and phrases which refer to
same entity in a text, a core tool in natural language processing. In this
paper, we propose a novel task, resolving coreferences in multimodal data,
long-form textual descriptions of visual scenes. Most existing image-text
datasets only contain short sentences without coreferent expressions, or
coreferences are not annotated. To this end, we first introduce a new dataset,
Flickr30k-Coref in which coreference chains and bounding box localization of
these chains are annotated. We propose a new technique that learns to identify
coreference chains through weakly supervised grounding from image-text pairs
and a regularization using prior linguistic knowledge. Our model yields large
performance gains over prior work in coreference resolution and weakly
supervised grounding of long-form text descriptions.
- Abstract(参考訳): Coreference Resolutionは、自然言語処理のコアツールであるテキスト内の同じエンティティを参照する単語やフレーズを識別することを目的としている。
本稿では,マルチモーダルデータ,視覚シーンの長文記述におけるコア参照を解消する新しいタスクを提案する。
既存の画像テキストデータセットの多くは、コアフェレント表現なしで短い文しか含まない。
この目的のために、まず新しいデータセットFlickr30k-Corefを導入し、これらのチェーンのコア参照チェーンとバウンディングボックスのローカライゼーションに注釈を付ける。
本稿では,画像テキスト対からの弱教師付き接地と,事前言語知識を用いた正規化により,コリファレンスチェーンを識別する手法を提案する。
提案手法は,先行研究に比べて,コリファレンス解像度と長文記述の弱教師付きグラウンド化において大きな性能向上をもたらす。
関連論文リスト
- Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos [69.29778009769862]
ラベル付きソースから未ラベルのターゲットデータへの識別的知識の堅牢な転送をドメインギャップでガイドするフレームワークであるLaGTranを紹介する。
意味的にリッチなテキストモダリティがより好ましい転送特性を持つという我々の観察に触発された我々は、ソース学習されたテキスト分類器を用いて、ターゲットテキスト記述の予測を生成するための転送機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する以前のアプローチよりもはるかに優れています。
論文 参考訳(メタデータ) (2024-03-08T18:58:46Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation [39.918783911894245]
キャプション内の言語構造がシーングラフ生成にどのように役立つかを示す。
提案手法は, 個々の三重項間の関係や, 対象物や対象物の文脈について, キャプションに記載した情報をキャプチャする。
Web上の多モーダルデータの大規模かつ多様なソースを考えると、言語的監督はクラウドソーシングされた三つ子よりもスケーラブルである。
論文 参考訳(メタデータ) (2021-05-28T17:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。