論文の概要: An Ensemble Model with Attention Based Mechanism for Image Captioning
- arxiv url: http://arxiv.org/abs/2501.14828v1
- Date: Wed, 22 Jan 2025 12:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:17.872323
- Title: An Ensemble Model with Attention Based Mechanism for Image Captioning
- Title(参考訳): イメージキャプションのためのアテンションに基づくアンサンブルモデル
- Authors: Israa Al Badarneh, Bassam Hammo, Omar Al-Kadi,
- Abstract要約: 本稿では,アテンションメカニズムが果たす重要な役割を強調し,トランスフォーマーモデルについて検討する。
提案モデルは、トランスフォーマーエンコーダデコーダアーキテクチャを用いて、テキストキャプションとディープラーニング畳み込みニューラルネットワークを作成し、画像から特徴を抽出する。
キャプションを作成するために,生成されたキャプションの豊かさを向上する新しいアンサンブル学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.249418440326334
- License:
- Abstract: Image captioning creates informative text from an input image by creating a relationship between the words and the actual content of an image. Recently, deep learning models that utilize transformers have been the most successful in automatically generating image captions. The capabilities of transformer networks have led to notable progress in several activities related to vision. In this paper, we thoroughly examine transformer models, emphasizing the critical role that attention mechanisms play. The proposed model uses a transformer encoder-decoder architecture to create textual captions and a deep learning convolutional neural network to extract features from the images. To create the captions, we present a novel ensemble learning framework that improves the richness of the generated captions by utilizing several deep neural network architectures based on a voting mechanism that chooses the caption with the highest bilingual evaluation understudy (BLEU) score. The proposed model was evaluated using publicly available datasets. Using the Flickr8K dataset, the proposed model achieved the highest BLEU-[1-3] scores with rates of 0.728, 0.495, and 0.323, respectively. The suggested model outperformed the latest methods in Flickr30k datasets, determined by BLEU-[1-4] scores with rates of 0.798, 0.561, 0.387, and 0.269, respectively. The model efficacy was also obtained by the Semantic propositional image caption evaluation (SPICE) metric with a scoring rate of 0.164 for the Flicker8k dataset and 0.387 for the Flicker30k. Finally, ensemble learning significantly advances the process of image captioning and, hence, can be leveraged in various applications across different domains.
- Abstract(参考訳): 画像キャプションは、単語と画像の実際の内容との関係を作成することにより、入力画像から情報テキストを生成する。
近年,トランスを利用したディープラーニングモデルは,画像キャプションの自動生成において最も成功している。
トランスフォーマーネットワークの能力は、視覚に関連するいくつかの活動において顕著な進歩をもたらした。
本稿では,注意機構が果たす重要な役割を強調し,トランスフォーマーモデルについて徹底的に検討する。
提案モデルは、トランスフォーマーエンコーダデコーダアーキテクチャを用いて、テキストキャプションとディープラーニング畳み込みニューラルネットワークを作成し、画像から特徴を抽出する。
これらのキャプションを作成するために,複数の深層ニューラルネットワークアーキテクチャを利用して生成したキャプションの豊かさを向上する新しいアンサンブル学習フレームワークを提案する。
提案モデルは,公開データセットを用いて評価した。
Flickr8Kデータセットを用いて、提案されたモデルは、それぞれ0.728、0.495、0.323の最高BLEU-[1-3]スコアを達成した。
提案したモデルは, BLEU-[1-4]スコアでそれぞれ0.798, 0.561, 0.387, 0.269で決定されたFlickr30kデータセットの最新の手法よりも優れていた。
モデルの有効性は,Flicker8kデータセットでは0.164,Flicker30kでは0.387のスコアでセマンティック命題画像キャプション評価(SPICE)によっても得られた。
最後に、アンサンブル学習は画像キャプションのプロセスを大幅に進歩させるので、様々な領域にまたがる様々なアプリケーションに活用することができる。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification [1.7265013728931]
本稿では,ゼロショット学習(ZSL)のための新しいフレームワークを提案する。
本稿では,ZSLを扱うためのモデルの性能向上のための3つの戦略を提案する。
論文 参考訳(メタデータ) (2024-05-03T15:02:41Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Image Search with Text Feedback by Additive Attention Compositional
Learning [1.4395184780210915]
本稿では,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく画像テキスト合成モジュールを提案する。
AACLは3つの大規模データセット(FashionIQ、Fashion200k、Shopping100k)で評価される
論文 参考訳(メタデータ) (2022-03-08T02:03:49Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。