論文の概要: Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2105.13994v1
- Date: Fri, 28 May 2021 17:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:35:22.173319
- Title: Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation
- Title(参考訳): 視覚シーングラフ生成のための弱い監督としての言語構造
- Authors: Keren Ye and Adriana Kovashka
- Abstract要約: キャプション内の言語構造がシーングラフ生成にどのように役立つかを示す。
提案手法は, 個々の三重項間の関係や, 対象物や対象物の文脈について, キャプションに記載した情報をキャプチャする。
Web上の多モーダルデータの大規模かつ多様なソースを考えると、言語的監督はクラウドソーシングされた三つ子よりもスケーラブルである。
- 参考スコア(独自算出の注目度): 39.918783911894245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work in scene graph generation requires categorical supervision at the
level of triplets - subjects and objects, and predicates that relate them,
either with or without bounding box information. However, scene graph
generation is a holistic task: thus holistic, contextual supervision should
intuitively improve performance. In this work, we explore how linguistic
structures in captions can benefit scene graph generation. Our method captures
the information provided in captions about relations between individual
triplets, and context for subjects and objects (e.g. visual properties are
mentioned). Captions are a weaker type of supervision than triplets since the
alignment between the exhaustive list of human-annotated subjects and objects
in triplets, and the nouns in captions, is weak. However, given the large and
diverse sources of multimodal data on the web (e.g. blog posts with images and
captions), linguistic supervision is more scalable than crowdsourced triplets.
We show extensive experimental comparisons against prior methods which leverage
instance- and image-level supervision, and ablate our method to show the impact
of leveraging phrasal and sequential context, and techniques to improve
localization of subjects and objects.
- Abstract(参考訳): シーングラフ生成における以前の作業は、三つ子(主題とオブジェクト)のレベルにおける分類的監督と、それらに関連する述語(ボックス情報のバウンディングの有無にかかわらず)を必要とする。
しかし、シーングラフ生成は全体論的タスクであり、したがって全体的、文脈的監督は直感的にパフォーマンスを改善するべきである。
本研究では,キャプションの言語構造がシーングラフ生成にどのように役立つかを検討する。
本手法は,個々のトリプレット間の関係や,対象や対象の文脈に関するキャプションで提供される情報をキャプチャする。
視覚特性は言及される)。
キャプションは、人間の注釈対象とトリプレットの中の対象の完全なリストとキャプションの名詞との整合が弱いため、トリプレットよりも弱いタイプの監督である。
しかし、web上の大規模で多様なマルチモーダルデータソース(例えば、)を考えると、
画像とキャプション付きブログ投稿) 言語指導はクラウドソース三つ子よりもスケーラブルです
事例レベルと画像レベルの監視を併用した先行手法との比較実験を行い, 文節的・逐次的文脈の活用による影響を示す手法と, 対象と対象のローカライゼーションを改善する手法について検討した。
関連論文リスト
- GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。