論文の概要: Topic Scene Graph Generation by Attention Distillation from Caption
- arxiv url: http://arxiv.org/abs/2110.05731v1
- Date: Tue, 12 Oct 2021 04:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:53:44.097242
- Title: Topic Scene Graph Generation by Attention Distillation from Caption
- Title(参考訳): キャプションからの注意蒸留による話題シーングラフ生成
- Authors: W. Wang, R. Wang, X. Chen
- Abstract要約: シーングラフは、簡単な内容やノイズを減らさない限り、期待したほど実用的ではない。
シーングラフを画像キャプションから借用し、残余の回避に基づいてスペシャリストになれるようにします。
実験により、注意蒸留は、強い監督なしに重要な関係を採掘する上で大きな改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 1.181694273002388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: If an image tells a story, the image caption is the briefest narrator.
Generally, a scene graph prefers to be an omniscient generalist, while the
image caption is more willing to be a specialist, which outlines the gist. Lots
of previous studies have found that a scene graph is not as practical as
expected unless it can reduce the trivial contents and noises. In this respect,
the image caption is a good tutor. To this end, we let the scene graph borrow
the ability from the image caption so that it can be a specialist on the basis
of remaining all-around, resulting in the so-called Topic Scene Graph. What an
image caption pays attention to is distilled and passed to the scene graph for
estimating the importance of partial objects, relationships, and events.
Specifically, during the caption generation, the attention about individual
objects in each time step is collected, pooled, and assembled to obtain the
attention about relationships, which serves as weak supervision for
regularizing the estimated importance scores of relationships. In addition, as
this attention distillation process provides an opportunity for combining the
generation of image caption and scene graph together, we further transform the
scene graph into linguistic form with rich and free-form expressions by sharing
a single generation model with image caption. Experiments show that attention
distillation brings significant improvements in mining important relationships
without strong supervision, and the topic scene graph shows great potential in
subsequent applications.
- Abstract(参考訳): イメージが物語を語る場合、その画像キャプションは最も簡潔なナレーターである。
一般的に、シーングラフは全知的なジェネラリストを好むが、画像キャプションは専門家になりたがる。
従来の研究では、簡単な内容やノイズを減らさない限り、シーングラフは期待したほど実用的ではないことが分かってきた。
この点において、イメージキャプションは良い家庭教師である。
この目的のために、画像キャプションから機能をシーングラフに借用させることで、トピックシーングラフと呼ばれる全周でスペシャリストになれるようにします。
画像キャプションが注意を向けたものを蒸留してシーングラフに渡し、部分的なオブジェクト、関係、イベントの重要性を推定する。
具体的には、キャプション生成の際、各タイムステップにおける個々のオブジェクトに対する注意を集め、プールし、組み立て、関係性についての注意を得る。
さらに、この注目蒸留プロセスは、画像キャプションとシーングラフの生成を併用する機会を提供するので、シーングラフを、画像キャプションと1世代モデルを共有することにより、リッチで自由な表現で言語形式に変換する。
実験により, 注意蒸留は, 強い監督を伴わない重要な関係のマイニングにおいて, 大幅な改善をもたらすことが示された。
関連論文リスト
- GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation [39.918783911894245]
キャプション内の言語構造がシーングラフ生成にどのように役立つかを示す。
提案手法は, 個々の三重項間の関係や, 対象物や対象物の文脈について, キャプションに記載した情報をキャプチャする。
Web上の多モーダルデータの大規模かつ多様なソースを考えると、言語的監督はクラウドソーシングされた三つ子よりもスケーラブルである。
論文 参考訳(メタデータ) (2021-05-28T17:20:27Z) - A Comprehensive Survey of Scene Graphs: Generation and Application [42.07469181785126]
シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造化された表現である。
現在、シーングラフの比較的体系的な調査は行われていない。
論文 参考訳(メタデータ) (2021-03-17T04:24:20Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z) - Are scene graphs good enough to improve Image Captioning? [19.36188161855731]
画像キャプションにおけるシーングラフの利用について検討する。
シーングラフ機能を使用するモデルと、オブジェクト検出機能のみを使用するモデルの間には、大きな違いは見つからない。
予測されたシーングラフの品質は一般的に非常に低いが、高品質なシーングラフを使用すると最大3.3CIDErのゲインが得られる。
論文 参考訳(メタデータ) (2020-09-25T16:09:08Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。