論文の概要: Pre-Trained CNN Architecture for Transformer-Based Image Caption Generation Model
- arxiv url: http://arxiv.org/abs/2509.17365v1
- Date: Mon, 22 Sep 2025 05:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.234679
- Title: Pre-Trained CNN Architecture for Transformer-Based Image Caption Generation Model
- Title(参考訳): 変圧器を用いた画像キャプション生成モデルのための事前学習型CNNアーキテクチャ
- Authors: Amanuel Tafese Dufera,
- Abstract要約: 本研究は,画像キャプションのためのトランスフォーマーモデルの構築と構築のためのガイドを提供する。
我々は、シーケンシャルデータ管理の有効性を認識した、確立されたTransformerアーキテクチャを活用している。
提案手法は,効率的なトレーニングと推論のための並列化の利用を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic image captioning, a multifaceted task bridging computer vision and natural lan- guage processing, aims to generate descriptive textual content from visual input. While Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) networks have achieved significant advancements, they present limitations. The inherent sequential nature of RNNs leads to sluggish training and inference times. LSTMs further struggle with retaining information from earlier sequence elements when dealing with very long se- quences. This project presents a comprehensive guide to constructing and comprehending transformer models for image captioning. Transformers employ self-attention mechanisms, capturing both short- and long-range dependencies within the data. This facilitates efficient parallelization during both training and inference phases. We leverage the well-established Transformer architecture, recognized for its effectiveness in managing sequential data, and present a meticulous methodology. Utilizing the Flickr30k dataset, we conduct data pre- processing, construct a model architecture that integrates an EfficientNetB0 CNN for fea- ture extraction, and train the model with attention mechanisms incorporated. Our approach exemplifies the utilization of parallelization for efficient training and inference. You can find the project on GitHub.
- Abstract(参考訳): 画像の自動キャプション、コンピュータビジョンと自然なランゲージ処理は、視覚入力から記述的なテキストコンテンツを生成することを目的としている。
畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ネットワークは大きな進歩を遂げているが、それらには限界がある。
RNNの本質的なシーケンシャルな性質は、ゆるやかなトレーニングと推論時間につながる。
LSTMは、非常に長いシークエンスを扱う際に、以前のシーケンス要素からの情報を保持することにさらに苦労する。
本研究は,画像キャプションのためのトランスフォーマーモデルの構築と構築のための包括的なガイドを提供する。
トランスフォーマーは自己保持機構を採用し、データ内の短距離および長距離の依存関係をキャプチャする。
これにより、トレーニングフェーズと推論フェーズの両方において、効率的な並列化が可能になる。
我々は、よく確立されたTransformerアーキテクチャを活用し、シーケンシャルデータ管理の有効性を認識し、巧妙な方法論を提案する。
Flickr30kデータセットを用いて、データ前処理を行い、フェーア・テクスチャ抽出のためのEfficientNetB0 CNNを統合したモデルアーキテクチャを構築し、注意機構を組み込んだモデルを訓練する。
提案手法は,効率的なトレーニングと推論のための並列化の利用を実証する。
このプロジェクトはGitHubで見ることができる。
関連論文リスト
- Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Todyformer: Towards Holistic Dynamic Graph Transformers with
Structure-Aware Tokenization [6.799413002613627]
Todyformerは、動的グラフに適したトランスフォーマーベースのニューラルネットワークである。
メッセージパッシングニューラルネットワーク(MPNN)のローカルエンコーディング能力とトランスフォーマーのグローバルエンコーディング能力を統合する。
Todyformerは、ダウンストリームタスクの最先端メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T23:05:30Z) - ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition [3.6321891270689055]
RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
論文 参考訳(メタデータ) (2023-10-22T21:13:43Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。