論文の概要: Say As You Wish: Fine-grained Control of Image Caption Generation with
Abstract Scene Graphs
- arxiv url: http://arxiv.org/abs/2003.00387v1
- Date: Sun, 1 Mar 2020 03:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:36:18.996820
- Title: Say As You Wish: Fine-grained Control of Image Caption Generation with
Abstract Scene Graphs
- Title(参考訳): say as you wish: 抽象的なシーングラフによるキャプション生成のきめ細かい制御
- Authors: Shizhe Chen, Qin Jin, Peng Wang, Qi Wu
- Abstract要約: ユーザ意図をきめ細かいレベルで表現するための抽象シーングラフ構造を提案する。
本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案する。
我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。
- 参考スコア(独自算出の注目度): 74.88118535585903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are able to describe image contents with coarse to fine details as
they wish. However, most image captioning models are intention-agnostic which
can not generate diverse descriptions according to different user intentions
initiatively. In this work, we propose the Abstract Scene Graph (ASG) structure
to represent user intention in fine-grained level and control what and how
detailed the generated description should be. The ASG is a directed graph
consisting of three types of \textbf{abstract nodes} (object, attribute,
relationship) grounded in the image without any concrete semantic labels. Thus
it is easy to obtain either manually or automatically. From the ASG, we propose
a novel ASG2Caption model, which is able to recognise user intentions and
semantics in the graph, and therefore generate desired captions according to
the graph structure. Our model achieves better controllability conditioning on
ASGs than carefully designed baselines on both VisualGenome and MSCOCO
datasets. It also significantly improves the caption diversity via
automatically sampling diverse ASGs as control signals.
- Abstract(参考訳): 人間は、望んだように細部まで詳細に画像の内容を記述することができる。
しかし、ほとんどの画像キャプションモデルは意図に依存しないため、異なるユーザの意図に応じて多様な記述を生成できない。
本研究では,ユーザ意図をきめ細かいレベルで表現し,生成した記述がどの程度詳細なものであるかを制御するための抽象シーングラフ(ASG)構造を提案する。
ASG は、3種類の \textbf{abstract node} (オブジェクト、属性、関係) からなる有向グラフであり、具体的な意味ラベルを持たない。
そのため、手動でも自動でも入手が容易である。
本稿では,ASGからユーザ意図や意味を認識可能なASG2Captionモデルを提案し,グラフ構造に応じて所望のキャプションを生成する。
我々のモデルは、VisualGenomeとMSCOCOの両方のデータセットのベースラインを慎重に設計するよりも、ASGの制御性条件付けが優れている。
また、様々なASGを制御信号として自動的にサンプリングすることでキャプションの多様性を著しく改善する。
関連論文リスト
- Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions [53.069446715005924]
グラフベースのキャプション(GBC)はラベル付きグラフ構造を用いて画像を記述する。
GBCのノードは、最初の段階でオブジェクト検出と高密度キャプションツールを使用して生成される。
GBCノードのアノテーションを使用することで、下流モデルの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-07-09T09:55:04Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。