論文の概要: Extending Phrase Grounding with Pronouns in Visual Dialogues
- arxiv url: http://arxiv.org/abs/2210.12658v1
- Date: Sun, 23 Oct 2022 08:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:45:35.455519
- Title: Extending Phrase Grounding with Pronouns in Visual Dialogues
- Title(参考訳): 視覚対話における名詞によるフレーズ接地の拡張
- Authors: Panzhong Lu, Xin Zhang, Meishan Zhang and Min Zhang
- Abstract要約: 名詞句と代名詞を画像領域に配置した句接頭辞のデータセットを構築した。
実験により、代名詞は名詞句よりも接頭し易いことが示された。
コア参照情報を用いたモデルでは,名詞句と代名詞の両方のグラウンドリング性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 21.375738070716764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional phrase grounding aims to localize noun phrases mentioned in a
given caption to their corresponding image regions, which has achieved great
success recently. Apparently, sole noun phrase grounding is not enough for
cross-modal visual language understanding. Here we extend the task by
considering pronouns as well. First, we construct a dataset of phrase grounding
with both noun phrases and pronouns to image regions. Based on the dataset, we
test the performance of phrase grounding by using a state-of-the-art literature
model of this line. Then, we enhance the baseline grounding model with
coreference information which should help our task potentially, modeling the
coreference structures with graph convolutional networks. Experiments on our
dataset, interestingly, show that pronouns are easier to ground than noun
phrases, where the possible reason might be that these pronouns are much less
ambiguous. Additionally, our final model with coreference information can
significantly boost the grounding performance of both noun phrases and
pronouns.
- Abstract(参考訳): 従来の接頭辞は、ある字幕にある名詞句を対応する画像領域にローカライズすることを目的としており、近年大きな成功を収めている。
単独の名詞句の接頭辞は、モーダルな視覚言語理解には不十分である。
ここでは代名詞も考慮してタスクを拡張する。
まず,名詞句と代名詞を画像領域に配置した句接頭辞のデータセットを構築する。
このデータセットに基づいて,この行の最先端文献モデルを用いて句接地性能を検証した。
次に,コリファレンス構造をグラフ畳み込みネットワークでモデル化することにより,タスクを潜在的に支援するコリファレンス情報を備えたベースライングラウンドモデルを拡張する。
興味深いことに、我々のデータセットの実験では、代名詞は名詞句よりも接地が容易であることが示されています。
さらに,コア参照情報を用いた最終モデルは名詞句と代名詞の両方のグラウンドリング性能を大幅に向上させることができる。
関連論文リスト
- A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models [28.746370086515977]
視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。
本稿では,タスクのパフォーマンスとフレーズのグラウンド化を共同で研究する枠組みを提案する。
地中表現アノテーションのブルートフォーストレーニングを通じてこの問題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-09-06T03:54:57Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。