論文の概要: Belief Revision based Caption Re-ranker with Visual Semantic Information
- arxiv url: http://arxiv.org/abs/2209.08163v1
- Date: Fri, 16 Sep 2022 20:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:05:32.304202
- Title: Belief Revision based Caption Re-ranker with Visual Semantic Information
- Title(参考訳): 視覚的セマンティック情報を用いた信念修正に基づくキャプションリランカ
- Authors: Ahmed Sabir, Francesc Moreno-Noguer, Pranava Madhyastha, Llu\'is
Padr\'o
- Abstract要約: 本稿では,視覚的セマンティックな手法を用いて理想的なキャプションを識別する手法を提案する。
実験では,提案手法の有効性を実証し,一般的な画像キャプチャシステムの性能向上を図る。
- 参考スコア(独自算出の注目度): 31.20692237930281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we focus on improving the captions generated by image-caption
generation systems. We propose a novel re-ranking approach that leverages
visual-semantic measures to identify the ideal caption that maximally captures
the visual information in the image. Our re-ranker utilizes the Belief Revision
framework (Blok et al., 2003) to calibrate the original likelihood of the top-n
captions by explicitly exploiting the semantic relatedness between the depicted
caption and the visual context. Our experiments demonstrate the utility of our
approach, where we observe that our re-ranker can enhance the performance of a
typical image-captioning system without the necessity of any additional
training or fine-tuning.
- Abstract(参考訳): 本研究では,画像キャプション生成システムによって生成されたキャプションの改善に焦点を当てる。
画像中の視覚情報を最大限にとらえる理想的なキャプションを識別するために,視覚論的手法を活用した新しい再ランキング手法を提案する。
我々の再ランク付け者は, 信念修正フレームワーク (blok et al., 2003) を用いて, 字幕と視覚コンテクスト間の意味的関連性を明示的に活用することにより, トップn字幕の本来の可能性を調整する。
実験では,新たなトレーニングや微調整を必要とせずに,一般的な画像キャプチャシステムの性能を向上させることができることを示す。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Word to Sentence Visual Semantic Similarity for Caption Generation:
Lessons Learned [2.1828601975620257]
画像に最も近縁な出力を選択することでキャプション生成システムを改善する手法を提案する。
画像中の関連情報と適切なキャプションを一致させるために,単語と文レベルで視覚的意味尺度を用いる。
論文 参考訳(メタデータ) (2022-09-26T16:24:13Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Towards Unique and Informative Captioning of Images [40.036350846970706]
現代のキャプションシステムと評価指標の両方を分析した。
キャプションで生成された概念に対して一意性の概念を導入することで,新しい計量(SPICE)を設計する。
SPICE-U は SPICE と比較して人間の判断と相関し,多様性と記述性の概念を効果的に捉えている。
論文 参考訳(メタデータ) (2020-09-08T19:01:33Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。