論文の概要: Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism
- arxiv url: http://arxiv.org/abs/2504.16761v1
- Date: Wed, 23 Apr 2025 14:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:47:56.386681
- Title: Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism
- Title(参考訳): Tri-FusionNet:Transformer-based Fusion Networkとデュアルアテンション機構による画像記述の強化
- Authors: Lakshita Agarwal, Bindu Verma,
- Abstract要約: Tri-FusionNetは、新しい画像記述生成モデルである。
ビジョントランスフォーマー(ViT)エンコーダモジュールとデュアルアテンション機構、BERTアプローチ(RoBERTa)デコーダモジュール、Contrastive Language- Image Pre-Training(CLIP)統合モジュールを統合している。
その結果,Tri-FusionNetによる高品質な画像記述の有効性が示された。
- 参考スコア(独自算出の注目度): 2.186901738997927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image description generation is essential for accessibility and AI understanding of visual content. Recent advancements in deep learning have significantly improved natural language processing and computer vision. In this work, we propose Tri-FusionNet, a novel image description generation model that integrates transformer modules: a Vision Transformer (ViT) encoder module with dual-attention mechanism, a Robustly Optimized BERT Approach (RoBERTa) decoder module, and a Contrastive Language-Image Pre-Training (CLIP) integrating module. The ViT encoder, enhanced with dual attention, focuses on relevant spatial regions and linguistic context, improving image feature extraction. The RoBERTa decoder is employed to generate precise textual descriptions. CLIP's integrating module aligns visual and textual data through contrastive learning, ensuring effective combination of both modalities. This fusion of ViT, RoBERTa, and CLIP, along with dual attention, enables the model to produce more accurate, contextually rich, and flexible descriptions. The proposed framework demonstrated competitive performance on the Flickr30k and Flickr8k datasets, with BLEU scores ranging from 0.767 to 0.456 and 0.784 to 0.479, CIDEr scores of 1.679 and 1.483, METEOR scores of 0.478 and 0.358, and ROUGE-L scores of 0.567 and 0.789, respectively. On MS-COCO, the framework obtained BLEU scores of 0.893 (B-1), 0.821 (B-2), 0.794 (B-3), and 0.725 (B-4). The results demonstrate the effectiveness of Tri-FusionNet in generating high-quality image descriptions.
- Abstract(参考訳): 画像記述生成は、視覚的コンテンツのアクセシビリティとAI理解に不可欠である。
ディープラーニングの最近の進歩は、自然言語処理とコンピュータビジョンを大幅に改善した。
本研究では、トランスモジュールを統合した新しい画像記述生成モデルであるTri-FusionNetを提案する。ビジョントランスフォーマー(ViT)エンコーダモジュールとデュアルアテンション機構、ロバスト最適化BERTアプローチ(RoBERTa)デコーダモジュール、コントラスト言語-画像事前学習(CLIP)統合モジュールである。
ViTエンコーダは、二重注意で強化され、関連する空間領域と言語コンテキストに焦点を当て、画像の特徴抽出を改善した。
RoBERTaデコーダは正確なテキスト記述を生成するために使用される。
CLIPの統合モジュールは、コントラスト学習を通じて視覚データとテキストデータを整列させ、両方のモダリティの効果的な組み合わせを保証する。
このViT、RoBERTa、CLIPの融合により、モデルはより正確で、文脈的にリッチで柔軟な記述を生成することができる。
このフレームワークはFlickr30kとFlickr8kのデータセットで競争性能を示し、BLEUスコアは0.767から0.456、0.784から0.479、CIDErスコアは1.679、1.483、METEORスコアは0.478、ROUGE-Lスコアは0.567、0.789であった。
MS-COCOでは、BLEUスコアは0.893(B-1)、0.821(B-2)、0.794(B-3)、0.725(B-4)であった。
その結果,Tri-FusionNetによる高品質な画像記述の有効性が示された。
関連論文リスト
- Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation [2.186901738997927]
本研究は,ビデオデータセットから自然言語記述を生成する新しいフレームワークを提案する。
提案アーキテクチャでは、ResNet50を使用してビデオフレームから視覚的特徴を抽出する。
抽出された視覚特性はパッチ埋め込みに変換され、エンコーダ・デコーダモデルを介して実行される。
論文 参考訳(メタデータ) (2025-04-23T15:03:37Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - An Ensemble Model with Attention Based Mechanism for Image Captioning [1.249418440326334]
本稿では,アテンションメカニズムが果たす重要な役割を強調し,トランスフォーマーモデルについて検討する。
提案モデルは、トランスフォーマーエンコーダデコーダアーキテクチャを用いて、テキストキャプションとディープラーニング畳み込みニューラルネットワークを作成し、画像から特徴を抽出する。
キャプションを作成するために,生成されたキャプションの豊かさを向上する新しいアンサンブル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-22T12:28:37Z) - STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。
本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。
データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文 参考訳(メタデータ) (2024-06-03T17:44:11Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for
Speech-to-Image Generation [8.26410341981427]
音声から画像への変換の目的は、音声信号から直接写実的な画像を生成することである。
本稿では,Fusion-S2iGanと呼ばれる単一段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-17T11:12:07Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Bangla Image Caption Generation through CNN-Transformer based
Encoder-Decoder Network [0.5260346080244567]
本稿では,ResNet-101モデル画像エンコーダによる画像の特徴抽出のためのアテンション機構を備えた新しいトランスフォーマーアーキテクチャを提案する。
実験により,本手法の言語デコーダはキャプション内の微細な情報をキャプチャし,画像特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-10-24T13:33:23Z) - Improved Bengali Image Captioning via deep convolutional neural network
based encoder-decoder model [0.8793721044482612]
本稿では,マルチモーダルアーキテクチャを用いたエンドツーエンド画像キャプションシステムを提案する。
提案手法の言語エンコーダは,キャプション内の微細な情報をキャプチャし,画像の特徴と組み合わせることで,正確かつ多様なキャプションを生成する。
論文 参考訳(メタデータ) (2021-02-14T16:44:17Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。