論文の概要: Word to Sentence Visual Semantic Similarity for Caption Generation:
Lessons Learned
- arxiv url: http://arxiv.org/abs/2209.12817v1
- Date: Mon, 26 Sep 2022 16:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:29:25.068182
- Title: Word to Sentence Visual Semantic Similarity for Caption Generation:
Lessons Learned
- Title(参考訳): キャプション生成のための視覚的セマンティック類似表現:学習した教訓
- Authors: Ahmed Sabir
- Abstract要約: 画像に最も近縁な出力を選択することでキャプション生成システムを改善する手法を提案する。
画像中の関連情報と適切なキャプションを一致させるために,単語と文レベルで視覚的意味尺度を用いる。
- 参考スコア(独自算出の注目度): 2.1828601975620257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on enhancing the captions generated by image-caption
generation systems. We propose an approach for improving caption generation
systems by choosing the most closely related output to the image rather than
the most likely output produced by the model. Our model revises the language
generation output beam search from a visual context perspective. We employ a
visual semantic measure in a word and sentence level manner to match the proper
caption to the related information in the image. The proposed approach can be
applied to any caption system as a post-processing based method.
- Abstract(参考訳): 本稿では,画像キャプチャ生成システムによって生成されるキャプションの強化に着目する。
本稿では,モデルが生成する最も可能性の高い出力ではなく,最も関連性の高い出力を選択することでキャプション生成システムを改善する手法を提案する。
我々のモデルは視覚的文脈の観点から言語生成出力ビーム探索を改訂する。
画像中の関連情報と適切なキャプションを一致させるために,単語と文レベルの視覚的意味尺度を用いる。
提案手法は後処理に基づく手法として任意の字幕システムに適用できる。
関連論文リスト
- Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Belief Revision based Caption Re-ranker with Visual Semantic Information [31.20692237930281]
本稿では,視覚的セマンティックな手法を用いて理想的なキャプションを識別する手法を提案する。
実験では,提案手法の有効性を実証し,一般的な画像キャプチャシステムの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-16T20:36:41Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - RefineCap: Concept-Aware Refinement for Image Captioning [34.35093893441625]
我々はRefineCapと呼ばれる新しいモデルを提案し、デコーダ誘導ビジュアルセマンティクスを用いて言語デコーダの出力語彙を洗練させる。
本モデルは,従来の視覚概念モデルと比較して,MS-COCOデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-08T10:12:14Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。