論文の概要: Improving Image Captioning via Predicting Structured Concepts
- arxiv url: http://arxiv.org/abs/2311.08223v2
- Date: Tue, 28 Nov 2023 04:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:54:01.663971
- Title: Improving Image Captioning via Predicting Structured Concepts
- Title(参考訳): 構造概念の予測による画像キャプションの改善
- Authors: Ting Wang, Weidong Chen, Yuanhe Tian, Yan Song, Zhendong Mao
- Abstract要約: 本研究では,概念とその構造を予測するための構造的概念予測器を提案し,それをキャプションに統合する。
我々は、単語依存によって駆動される概念関係を記述するために、重み付きグラフ畳み込みネットワーク(W-GCN)を設計する。
提案手法は,概念間の潜在的な関係を捉え,異なる概念を識別的に学習することにより,画像キャプションの継承を容易にする。
- 参考スコア(独自算出の注目度): 46.88858655641866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having the difficulty of solving the semantic gap between images and texts
for the image captioning task, conventional studies in this area paid some
attention to treating semantic concepts as a bridge between the two modalities
and improved captioning performance accordingly. Although promising results on
concept prediction were obtained, the aforementioned studies normally ignore
the relationship among concepts, which relies on not only objects in the image,
but also word dependencies in the text, so that offers a considerable potential
for improving the process of generating good descriptions. In this paper, we
propose a structured concept predictor (SCP) to predict concepts and their
structures, then we integrate them into captioning, so as to enhance the
contribution of visual signals in this task via concepts and further use their
relations to distinguish cross-modal semantics for better description
generation. Particularly, we design weighted graph convolutional networks
(W-GCN) to depict concept relations driven by word dependencies, and then
learns differentiated contributions from these concepts for following decoding
process. Therefore, our approach captures potential relations among concepts
and discriminatively learns different concepts, so that effectively facilitates
image captioning with inherited information across modalities. Extensive
experiments and their results demonstrate the effectiveness of our approach as
well as each proposed module in this work.
- Abstract(参考訳): 画像キャプションタスクにおける画像とテキストのセマンティックギャップの解決が困難であったため,従来の研究では,2つのモダリティ間のブリッジとしての意味概念を扱い,キャプティング性能の向上に留意した。
概念予測の有望な結果が得られたが、前述の研究は通常、イメージ内のオブジェクトだけでなく、テキスト内の単語依存性にも依存する概念間の関係を無視するので、良質な記述を生成するプロセスを改善する大きな可能性を秘めている。
本稿では,概念とその構造を予測するための構造化概念予測器 (SCP) を提案し,それらをキャプションに統合し,このタスクにおける視覚信号の寄与を高めるとともに,それらの関係を利用して記述生成を改善する。
特に,単語依存による概念関係を表現するために重み付きグラフ畳み込みネットワーク(W-GCN)を設計し,これらの概念と区別されたコントリビューションを復号プロセスに従って学習する。
そこで本研究では,概念間の潜在的な関係を捉え,異なる概念を識別的に学習する手法を提案する。
広範な実験とその結果から,提案する各モジュールとともに,提案手法の有効性が示された。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Cross-Modal Conceptualization in Bottleneck Models [21.2577097041883]
概念ボトルネックモデル(CBM)は、訓練例(例えば、x線画像)が高レベルの概念で注釈付けされていると仮定する。
このアプローチでは、より穏健な仮定を採用し、代わりに、訓練中の画像に付随するテキスト記述を用いて概念の導出を誘導する。
我々のクロスモーダルアプローチは,概念を離散潜在変数として扱い,(1)ラベルの予測,(2)画像とテキストの両方から確実に予測できる概念を促進する。
論文 参考訳(メタデータ) (2023-10-23T11:00:19Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。