論文の概要: Fine-Grained Image Captioning with Global-Local Discriminative Objective
- arxiv url: http://arxiv.org/abs/2007.10662v1
- Date: Tue, 21 Jul 2020 08:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:33:59.468699
- Title: Fine-Grained Image Captioning with Global-Local Discriminative Objective
- Title(参考訳): 全局的判別目標を用いた細粒度画像キャプション
- Authors: Jie Wu, Tianshui Chen, Hefeng Wu, Zhi Yang, Guangchun Luo, Liang Lin
- Abstract要約: 本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
- 参考スコア(独自算出の注目度): 80.73827423555655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in recent years in image captioning, an
active topic in the fields of vision and language. However, existing methods
tend to yield overly general captions and consist of some of the most frequent
words/phrases, resulting in inaccurate and indistinguishable descriptions (see
Figure 1). This is primarily due to (i) the conservative characteristic of
traditional training objectives that drives the model to generate correct but
hardly discriminative captions for similar images and (ii) the uneven word
distribution of the ground-truth captions, which encourages generating highly
frequent words/phrases while suppressing the less frequent but more concrete
ones. In this work, we propose a novel global-local discriminative objective
that is formulated on top of a reference model to facilitate generating
fine-grained descriptive captions. Specifically, from a global perspective, we
design a novel global discriminative constraint that pulls the generated
sentence to better discern the corresponding image from all others in the
entire dataset. From the local perspective, a local discriminative constraint
is proposed to increase attention such that it emphasizes the less frequent but
more concrete words/phrases, thus facilitating the generation of captions that
better describe the visual details of the given images. We evaluate the
proposed method on the widely used MS-COCO dataset, where it outperforms the
baseline methods by a sizable margin and achieves competitive performance over
existing leading approaches. We also conduct self-retrieval experiments to
demonstrate the discriminability of the proposed method.
- Abstract(参考訳): 近年,視覚・言語分野において活発な話題であるイメージキャプションが注目されている。
しかし、既存の手法では、過剰に一般的なキャプションを生成し、最も頻繁な単語/フレーズで構成され、不正確で区別できない記述をもたらす傾向がある(図1参照)。
これは主に
(i)類似画像の正しいがほとんど判別できないキャプションを生成するモデルを駆動する伝統的な訓練目的の保守的特徴
(i) 接頭辞の不均一な単語分布は, 頻度の低いが具体的でない単語を抑えつつ, 頻繁な単語・フレーズの生成を促進する。
本研究では,参照モデル上に,詳細な記述キャプションの作成を容易にするために,新たなグローバル・ローカル識別目的を提案する。
具体的には、グローバルな観点から、生成された文を抽出し、データセット全体の他のすべての画像とよりよく識別する、新しいグローバルな差別的制約を設計する。
局所的な視点から、より頻度の低い、より具体的な単語/フレーズを強調し、与えられた画像の視覚的詳細をより正確に記述するキャプションを生成するように、局所的な識別的制約を提案する。
提案手法は広く使われているMS-COCOデータセット上で評価され,提案手法は既存の先行手法よりも優れた性能を示す。
また,提案手法の判別性を示すために,自己回帰実験を行う。
関連論文リスト
- StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation [18.213286385769525]
CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル一貫性の目的をバイパスすることが知られている。
本稿では,ステガノグラフィーを利用した新しいモデルであるStegoGANを紹介した。
我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2024-03-29T12:23:58Z) - LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning [0.0]
LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを導入する。
LDCAは、適応的グローバルな文脈拡張モジュールを活用することで、局所的およびグローバルな理解のギャップを埋める。
実験により,本手法の有効性を実証し,粒度分類データセットの次ベストに対して最大20%の絶対的改善を示した。
論文 参考訳(メタデータ) (2024-01-24T14:44:48Z) - Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained
Locality Learning Matters in Consistency Regularization [31.333862320143968]
半教師付きセマンティックセグメンテーションはラベル付き画像と豊富なラベル付き画像を利用してラベル効率の高い学習を実現することを目的としている。
我々は,より詳細な局所性学習により,より高密度なセグメンテーションを実現する,textttMaskMatchという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T03:28:53Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Switching to Discriminative Image Captioning by Relieving a Bottleneck
of Reinforcement Learning [24.676231888909097]
予期せぬ低識別性の原因について検討し、RLが出力語を高周波語に制限する根深い副作用を有することを示す。
低周波語生成を促すため, 識別画像の字幕化を極めて単純な課題として再検討した。
本手法は,市販のRLモデルの識別性を著しく向上させ,計算コストをはるかに小さくした従来の識別性認識手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-06T18:55:20Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。