論文の概要: Comprehensive Image Captioning via Scene Graph Decomposition
- arxiv url: http://arxiv.org/abs/2007.11731v1
- Date: Thu, 23 Jul 2020 00:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:30:25.258438
- Title: Comprehensive Image Captioning via Scene Graph Decomposition
- Title(参考訳): シーングラフ分解による包括的画像キャプション
- Authors: Yiwu Zhong, Liwei Wang, Jianshu Chen, Dong Yu, Yin Li
- Abstract要約: 本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題に対処する。
我々の手法の核となるのは、シーングラフをサブグラフの集合に分解することである。
我々は,重要な部分グラフを選択し,選択した各サブグラフを1つのターゲット文にデコードするディープモデルを設計する。
- 参考スコア(独自算出の注目度): 51.660090468384375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenging problem of image captioning by revisiting the
representation of image scene graph. At the core of our method lies the
decomposition of a scene graph into a set of sub-graphs, with each sub-graph
capturing a semantic component of the input image. We design a deep model to
select important sub-graphs, and to decode each selected sub-graph into a
single target sentence. By using sub-graphs, our model is able to attend to
different components of the image. Our method thus accounts for accurate,
diverse, grounded and controllable captioning at the same time. We present
extensive experiments to demonstrate the benefits of our comprehensive
captioning model. Our method establishes new state-of-the-art results in
caption diversity, grounding, and controllability, and compares favourably to
latest methods in caption quality. Our project website can be found at
http://pages.cs.wisc.edu/~yiwuzhong/Sub-GC.html.
- Abstract(参考訳): 本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題を解決する。
提案手法のコアとなるのは,シーングラフをサブグラフの集合に分解し,各サブグラフが入力画像の意味的成分をキャプチャすることである。
重要部分グラフを選択し,選択した各サブグラフを1つのターゲット文に復号する深層モデルの設計を行う。
サブグラフを使用することで、我々のモデルは画像の様々な構成要素に参画することができる。
そこで本手法では,精度,多様性,根拠,制御可能なキャプションを同時に記述する。
包括的キャプションモデルの利点を実証するための広範な実験を行った。
提案手法は, キャプションの多様性, 接地性, 制御性に関する新たな最先端結果を確立し, キャプション品質の最新の手法と比較する。
プロジェクトのWebサイトはhttp://pages.cs.wisc.edu/~yiwuzhong/Sub-GC.htmlにある。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning [6.101765622702223]
ノイズ対応キャプション(NoC)フレームワークは、ノイズの影響を受けずに、Webクローリングされたデータ全体から豊富な知識を学習する。
これは、画像テキストペアのアライメントレベルを制御信号として学習したアライメントレベル制御可能なキャプタによって実現される。
ノイズ処理におけるフレームワークの有効性を詳細に分析した。
論文 参考訳(メタデータ) (2022-12-27T17:33:40Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Robust Image Captioning [3.20603058999901]
本研究では, 対向的ロバストカットアルゴリズムを用いて, 対象関係を利用する。
本研究は,画像キャプションのための提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2020-12-06T00:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。