論文の概要: Style-Aware Contrastive Learning for Multi-Style Image Captioning
- arxiv url: http://arxiv.org/abs/2301.11367v1
- Date: Thu, 26 Jan 2023 19:21:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 17:25:02.320058
- Title: Style-Aware Contrastive Learning for Multi-Style Image Captioning
- Title(参考訳): マルチスタイル画像キャプションのためのスタイル認識コントラスト学習
- Authors: Yucheng Zhou, Guodong Long
- Abstract要約: 我々は、スタイルに関連のある潜在的な視覚コンテンツをマイニングするために、コントラスト学習を備えたスタイル認識型ビジュアルエンコーダを提案する。
また、画像、スタイル、キャプションが一致したかどうかを識別するために、スタイル対応のコントラスト目標を提案する。
実験により,本手法が最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 36.1319565907582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-style image captioning methods show promising results in
generating a caption with accurate visual content and desired linguistic style.
However, existing methods overlook the relationship between linguistic style
and visual content. To overcome this drawback, we propose style-aware
contrastive learning for multi-style image captioning. First, we present a
style-aware visual encoder with contrastive learning to mine potential visual
content relevant to style. Moreover, we propose a style-aware triplet contrast
objective to distinguish whether the image, style and caption matched. To
provide positive and negative samples for contrastive learning, we present
three retrieval schemes: object-based retrieval, RoI-based retrieval and
triplet-based retrieval, and design a dynamic trade-off function to calculate
retrieval scores. Experimental results demonstrate that our approach achieves
state-of-the-art performance. In addition, we conduct an extensive analysis to
verify the effectiveness of our method.
- Abstract(参考訳): 既存のマルチスタイル画像キャプション手法は、正確な視覚内容と望ましい言語スタイルのキャプションを生成する上で有望な結果を示す。
しかし、既存の手法では言語スタイルと視覚内容の関係を見落としている。
この欠点を克服するために,マルチスタイル画像キャプションのためのスタイル認識コントラスト学習を提案する。
まず,スタイルに関連する潜在的な視覚コンテンツをマイニングするために,コントラスト学習を伴うスタイル認識型ビジュアルエンコーダを提案する。
さらに,画像,スタイル,キャプションが一致するか否かを識別するためのスタイル認識三重項コントラスト目標を提案する。
本研究では,オブジェクトベース検索,roiベース検索,トリプレットベース検索の3つの検索方式と,動的トレードオフ関数の設計と,検索スコアの算出を行う。
実験により,本手法が最先端性能を実現することを示す。
また,本手法の有効性を検証するために広範な分析を行った。
関連論文リスト
- ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - Learning Visual Representations via Language-Guided Sampling [25.117909306792324]
コントラスト学習には、意味論的に類似した画像ペアのサンプルに言語類似性を用いる。
我々のアプローチは、言語類似性を用いたビューペアのサンプリングにより、画像に基づくコントラスト学習から分岐する。
言語指導学習は,画像ベースや画像テキスト表現学習よりも優れた特徴を持つことを示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z) - Language-Driven Image Style Transfer [72.36790598245096]
我々は、テキストでガイドされたコンテンツイメージのスタイルを操作するための新しいタスク、言語駆動型イメージスタイル転送(textttLDIST)を導入する。
識別器は、スタイルイメージの言語とパッチの相関や、変換された結果の相関を考慮し、スタイル命令を共同で埋め込む。
実験により, CLVAは有効であり, textttLDIST 上で超高速に転送された結果が得られた。
論文 参考訳(メタデータ) (2021-06-01T01:58:50Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。