論文の概要: Comprehending and Ordering Semantics for Image Captioning
- arxiv url: http://arxiv.org/abs/2206.06930v1
- Date: Tue, 14 Jun 2022 15:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:29:13.068981
- Title: Comprehending and Ordering Semantics for Image Captioning
- Title(参考訳): 画像キャプションのための補完と順序付け
- Authors: Yehao Li and Yingwei Pan and Ting Yao and Tao Mei
- Abstract要約: 我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
- 参考スコア(独自算出の注目度): 124.48670699658649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehending the rich semantics in an image and ordering them in linguistic
order are essential to compose a visually-grounded and linguistically coherent
description for image captioning. Modern techniques commonly capitalize on a
pre-trained object detector/classifier to mine the semantics in an image, while
leaving the inherent linguistic ordering of semantics under-exploited. In this
paper, we propose a new recipe of Transformer-style structure, namely
Comprehending and Ordering Semantics Networks (COS-Net), that novelly unifies
an enriched semantic comprehending and a learnable semantic ordering processes
into a single architecture. Technically, we initially utilize a cross-modal
retrieval model to search the relevant sentences of each image, and all words
in the searched sentences are taken as primary semantic cues. Next, a novel
semantic comprehender is devised to filter out the irrelevant semantic words in
primary semantic cues, and meanwhile infer the missing relevant semantic words
visually grounded in the image. After that, we feed all the screened and
enriched semantic words into a semantic ranker, which learns to allocate all
semantic words in linguistic order as humans. Such sequence of ordered semantic
words are further integrated with visual tokens of images to trigger sentence
generation. Empirical evidences show that COS-Net clearly surpasses the
state-of-the-art approaches on COCO and achieves to-date the best CIDEr score
of 141.1% on Karpathy test split. Source code is available at
\url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/cosnet}.
- Abstract(参考訳): 画像中のリッチなセマンティクスを補完し、言語順に順序付けすることは、画像キャプションのための視覚的かつ言語的に一貫性のある記述を構成するために不可欠である。
現代の技術では、画像のセマンティクスをマイニングするために事前訓練されたオブジェクト検出器/分類器を利用するのが一般的であり、セマンティクスの固有の言語順序は未熟である。
本稿では,拡張された意味的理解と学習可能な意味的順序付けプロセスを1つのアーキテクチャに新規に統一する,新しいトランスフォーマティブ型構造のレシピ,すなわち comprehending and ordering semantics networks (cos-net)を提案する。
技術的には、まずクロスモーダル検索モデルを用いて各画像の関連文を検索し、検索文中のすべての単語を主意味的手がかりとする。
次に,関係のない意味的単語を一次意味的手がかりでフィルタリングし,画像に視覚的に接する意味的単語の欠落を推測するために,新しい意味的コンプレンダーを考案した。
その後、スクリーニングされた、強化されたセマンティックな単語をセマンティックなランク付けに投入し、言語順にすべてのセマンティックな単語を人間として割り当てることを学ぶ。
このような順序付きセマンティックワードのシーケンスは、さらに画像の視覚トークンと統合され、文を生成する。
実証的な証拠は、COS-NetがCOCOの最先端アプローチを明らかに上回り、カルパシーテストの分割で141.1%のCIDErスコアを達成していることを示している。
ソースコードは \url{https://github.com/yehli/xmodaler/tree/master/configs/image_caption/cosnet} で入手できる。
関連論文リスト
- Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Towards Semantic Communications: Deep Learning-Based Image Semantic
Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。
画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。
実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文 参考訳(メタデータ) (2022-08-08T12:29:55Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Adaptive Semantic-Visual Tree for Hierarchical Embeddings [67.01307058209709]
本稿では,商品カテゴリのアーキテクチャを記述するために,階層型適応型セマンティックビジュアルツリーを提案する。
この木は、異なる意味レベルと同じ意味クラス内の視覚的類似度を同時に評価する。
各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学習する。
論文 参考訳(メタデータ) (2020-03-08T03:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。