論文の概要: Compressed Image Captioning using CNN-based Encoder-Decoder Framework
- arxiv url: http://arxiv.org/abs/2404.18062v1
- Date: Sun, 28 Apr 2024 03:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 18:02:54.155734
- Title: Compressed Image Captioning using CNN-based Encoder-Decoder Framework
- Title(参考訳): CNNベースのエンコーダデコーダフレームワークを用いた圧縮画像キャプション
- Authors: Md Alif Rahman Ridoy, M Mahmud Hasan, Shovon Bhowmick,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's world, image processing plays a crucial role across various fields, from scientific research to industrial applications. But one particularly exciting application is image captioning. The potential impact of effective image captioning is vast. It can significantly boost the accuracy of search engines, making it easier to find relevant information. Moreover, it can greatly enhance accessibility for visually impaired individuals, providing them with a more immersive experience of digital content. However, despite its promise, image captioning presents several challenges. One major hurdle is extracting meaningful visual information from images and transforming it into coherent language. This requires bridging the gap between the visual and linguistic domains, a task that demands sophisticated algorithms and models. Our project is focused on addressing these challenges by developing an automatic image captioning architecture that combines the strengths of convolutional neural networks (CNNs) and encoder-decoder models. The CNN model is used to extract the visual features from images, and later, with the help of the encoder-decoder framework, captions are generated. We also did a performance comparison where we delved into the realm of pre-trained CNN models, experimenting with multiple architectures to understand their performance variations. In our quest for optimization, we also explored the integration of frequency regularization techniques to compress the "AlexNet" and "EfficientNetB0" model. We aimed to see if this compressed model could maintain its effectiveness in generating image captions while being more resource-efficient.
- Abstract(参考訳): 今日の世界では、画像処理は科学研究から産業応用まで、様々な分野において重要な役割を担っている。
しかし、特にエキサイティングな応用は画像キャプションだ。
効果的な画像キャプションの潜在的影響は大きい。
これにより、検索エンジンの精度が大幅に向上し、関連する情報を容易に見つけることができる。
さらに、視覚障害者のアクセシビリティを大幅に向上させ、デジタルコンテンツのより没入的な体験を提供する。
しかし、その約束にもかかわらず、画像キャプションにはいくつかの課題がある。
1つの大きなハードルは、画像から意味のある視覚情報を抽出し、一貫性のある言語に変換することである。
これは、洗練されたアルゴリズムとモデルを必要とするタスクである、視覚領域と言語領域のギャップを埋める必要がある。
我々のプロジェクトは、畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発することで、これらの課題に対処することに集中している。
CNNモデルは画像から視覚的特徴を抽出するために使用され、後にエンコーダデコーダフレームワークの助けを借りてキャプションを生成する。
パフォーマンス比較も行ない、事前訓練されたCNNモデルの領域を掘り下げて、パフォーマンスのバリエーションを理解するために複数のアーキテクチャを試しました。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
我々は,この圧縮モデルにより画像キャプションの生成効率が向上し,資源効率が向上することを確認した。
関連論文リスト
- AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - A Comparative Study of Pre-trained CNNs and GRU-Based Attention for
Image Caption Generation [9.490898534790977]
本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。
提案手法では,複数の事前学習された畳み込みニューラルネットワークをエンコーダとして,画像から特徴を抽出し,文を生成するデコーダとしてGRUベースの言語モデルを用いる。
論文 参考訳(メタデータ) (2023-10-11T07:30:01Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。