論文の概要: Attention Beam: An Image Captioning Approach
- arxiv url: http://arxiv.org/abs/2011.01753v2
- Date: Wed, 11 Nov 2020 15:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:16:55.802232
- Title: Attention Beam: An Image Captioning Approach
- Title(参考訳): 注意ビーム:画像キャプションのアプローチ
- Authors: Anubhav Shrimal, Tanmoy Chakraborty
- Abstract要約: 近年,エンコーダ・デコーダをベースとしたアーキテクチャは,画像キャプションの最先端化を実現している。
ここでは,エンコーダとデコーダをベースとしたアーキテクチャ上にビームサーチを行い,3つのベンチマークデータセットに対して高品質なキャプションを提供する。
- 参考スコア(独自算出の注目度): 33.939487457110566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of image captioning is to generate textual description of a given
image. Though seemingly an easy task for humans, it is challenging for machines
as it requires the ability to comprehend the image (computer vision) and
consequently generate a human-like description for the image (natural language
understanding). In recent times, encoder-decoder based architectures have
achieved state-of-the-art results for image captioning. Here, we present a
heuristic of beam search on top of the encoder-decoder based architecture that
gives better quality captions on three benchmark datasets: Flickr8k, Flickr30k
and MS COCO.
- Abstract(参考訳): 画像キャプションの目的は、所定の画像のテキスト記述を生成することである。
人間にとって簡単な作業のように見えるが、イメージ(コンピュータビジョン)を理解でき、結果として画像(自然言語理解)の人間的な記述を生成する能力を必要とするため、機械にとっては難しい。
近年,エンコーダ-デコーダアーキテクチャは画像キャプションの最先端化を実現している。
ここでは,エンコーダデコーダに基づくアーキテクチャ上にビームサーチのヒューリスティックを示し,Flickr8k,Flickr30k,MS COCOの3つのベンチマークデータセットに対して,より良い品質のキャプションを提供する。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Experimenting with Self-Supervision using Rotation Prediction for Image
Captioning [0.0]
画像キャプションは、コンピュータビジョンと自然言語処理を融合させる人工知能の分野における課題である。
エンコーダはOpenImagesデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)である。
回転プレテキストタスクを用いて,画像の特徴を自己教師付きで学習する。
論文 参考訳(メタデータ) (2021-07-28T00:46:27Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z) - Image to Language Understanding: Captioning approach [1.7188280334580195]
本研究の目的は,画像キャプション問題に対する様々なアプローチを比較することである。
エンコーダ・デコーダ方式では,複数モーダル画像キャプション方式と比較した。
画像をアップロードすると、そのようなシステムは画像に関連付けられた最高のキャプションを出力する。
論文 参考訳(メタデータ) (2020-02-21T20:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。