論文の概要: Experimenting with Self-Supervision using Rotation Prediction for Image
Captioning
- arxiv url: http://arxiv.org/abs/2107.13111v1
- Date: Wed, 28 Jul 2021 00:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 23:59:22.147938
- Title: Experimenting with Self-Supervision using Rotation Prediction for Image
Captioning
- Title(参考訳): 回転予測を用いた自己スーパービジョンによる画像キャプション実験
- Authors: Ahmed Elhagry, Karima Kadaoui
- Abstract要約: 画像キャプションは、コンピュータビジョンと自然言語処理を融合させる人工知能の分野における課題である。
エンコーダはOpenImagesデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)である。
回転プレテキストタスクを用いて,画像の特徴を自己教師付きで学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning is a task in the field of Artificial Intelligence that
merges between computer vision and natural language processing. It is
responsible for generating legends that describe images, and has various
applications like descriptions used by assistive technology or indexing images
(for search engines for instance). This makes it a crucial topic in AI that is
undergoing a lot of research. This task however, like many others, is trained
on large images labeled via human annotation, which can be very cumbersome: it
needs manual effort, both financial and temporal costs, it is error-prone and
potentially difficult to execute in some cases (e.g. medical images). To
mitigate the need for labels, we attempt to use self-supervised learning, a
type of learning where models use the data contained within the images
themselves as labels. It is challenging to accomplish though, since the task is
two-fold: the images and captions come from two different modalities and
usually handled by different types of networks. It is thus not obvious what a
completely self-supervised solution would look like. How it would achieve
captioning in a comparable way to how self-supervision is applied today on
image recognition tasks is still an ongoing research topic. In this project, we
are using an encoder-decoder architecture where the encoder is a convolutional
neural network (CNN) trained on OpenImages dataset and learns image features in
a self-supervised fashion using the rotation pretext task. The decoder is a
Long Short-Term Memory (LSTM), and it is trained, along within the image
captioning model, on MS COCO dataset and is responsible of generating captions.
Our GitHub repository can be found:
https://github.com/elhagry1/SSL_ImageCaptioning_RotationPrediction
- Abstract(参考訳): 画像キャプションは、コンピュータビジョンと自然言語処理を融合させる人工知能の分野における課題である。
画像を記述する伝説を生成する責任があり、補助技術で使われる記述や(例えば検索エンジンの)インデックス化画像といった様々な応用がある。
これはAIにおいて重要なトピックであり、多くの研究が行われている。
しかし、このタスクは、他の多くのものと同様に、人間のアノテーションによってラベル付けされた大きなイメージで訓練されているため、非常に面倒である。
医療画像)。
ラベルの必要性を軽減するために,モデルがラベルに含まれるデータをラベルとして使用する学習の一種として,自己教師付き学習を利用する。
イメージとキャプションは2つの異なるモードからなり、通常は異なるタイプのネットワークで処理される。
したがって、完全に自己監督されたソリューションがどのようなものかは明らかではない。
画像認識タスクに現在の自己スーパービジョンを適用する方法に匹敵する方法でキャプションを実現する方法はまだ研究中である。
本プロジェクトでは,OpenImagesデータセットで訓練された畳み込みニューラルネットワーク(CNN)であるエンコーダ・デコーダアーキテクチャを用いて,回転プリテキストタスクを用いて,自己教師型で画像特徴を学習する。
デコーダはLSTM(Long Short-Term Memory)であり、画像キャプションモデルとともに、MS COCOデータセット上でトレーニングされ、キャプションを生成する責任がある。
https://github.com/elhagry1/SSL_ImageCaptioning_RotationPrediction
関連論文リスト
- Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Neural Twins Talk & Alternative Calculations [3.198144010381572]
高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。
画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
論文 参考訳(メタデータ) (2021-08-05T18:41:34Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Attention Beam: An Image Captioning Approach [33.939487457110566]
近年,エンコーダ・デコーダをベースとしたアーキテクチャは,画像キャプションの最先端化を実現している。
ここでは,エンコーダとデコーダをベースとしたアーキテクチャ上にビームサーチを行い,3つのベンチマークデータセットに対して高品質なキャプションを提供する。
論文 参考訳(メタデータ) (2020-11-03T14:57:42Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。