論文の概要: Tell Me What You See: An Iterative Deep Learning Framework for Image Captioning
- arxiv url: http://arxiv.org/abs/2507.18788v1
- Date: Thu, 24 Jul 2025 20:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.746075
- Title: Tell Me What You See: An Iterative Deep Learning Framework for Image Captioning
- Title(参考訳): イメージキャプションのための反復的なディープラーニングフレームワーク
- Authors: Hitesh Kumar Gupta,
- Abstract要約: 本稿では,基礎画像キャプションモデルの体系的かつ反復的な展開について述べる。
Genesisから始まり、Nexusで終了する5つのモデルを提示する。
我々の実験は、アーキテクチャ拡張の影響をグラフ化し、古典的なCNN-LSTMパラダイムにおける重要な発見を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning, a task at the confluence of computer vision and natural language processing, requires a sophisticated understanding of both visual scenes and linguistic structure. While modern approaches are dominated by large-scale Transformer architectures, this paper documents a systematic, iterative development of foundational image captioning models, progressing from a simple CNN-LSTM encoder-decoder to a competitive attention-based system. We present a series of five models, beginning with Genesis and concluding with Nexus, an advanced model featuring an EfficientNetV2B3 backbone and a dynamic attention mechanism. Our experiments chart the impact of architectural enhancements and demonstrate a key finding within the classic CNN-LSTM paradigm: merely upgrading the visual backbone without a corresponding attention mechanism can degrade performance, as the single-vector bottleneck cannot transmit the richer visual detail. This insight validates the architectural shift to attention. Trained on the MS COCO 2017 dataset, our final model, Nexus, achieves a BLEU-4 score of 31.4, surpassing several foundational benchmarks and validating our iterative design process. This work provides a clear, replicable blueprint for understanding the core architectural principles that underpin modern vision-language tasks.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の融合における課題である画像キャプションは、視覚シーンと言語構造の両方を洗練された理解を必要とする。
本稿では,CNN-LSTMエンコーダ・デコーダから競合型アテンションベースシステムへと進化する,大規模トランスフォーマーアーキテクチャを主眼として,基礎画像キャプションモデルの体系的かつ反復的開発を行っている。
我々はGenesisからNexusまで,EfficientNetV2B3バックボーンと動的アテンション機構を備えた高度なモデルとして,一連の5つのモデルを提示する。
従来のCNN-LSTMパラダイムでは,単一ベクトルボトルネックがよりリッチな視覚的詳細を伝達できないため,視覚的バックボーンのアップグレードがパフォーマンスを低下させる可能性がある。
この洞察は、アーキテクチャの注目へのシフトを検証する。
MS COCO 2017データセットに基づいてトレーニングされた最終モデルNexusは、BLEU-4スコアが31.4に達し、いくつかの基本的なベンチマークを超え、反復的な設計プロセスを検証する。
この作業は、現代のビジョン言語タスクを支える中核的なアーキテクチャ原則を理解するための、明確でレプリカ可能な青写真を提供する。
関連論文リスト
- Language Embedding Meets Dynamic Graph: A New Exploration for Neural Architecture Representation Learning [38.323486764309]
本稿では,言語に基づくセマンティック埋め込みと動的グラフ表現学習の相乗的統合により,制約に対処する革新的なフレームワークであるLeDG-Formerを紹介する。
具体的には、ニューラルアーキテクチャとハードウェアプラットフォーム仕様の両方を統一的なセマンティック空間に投影する言語埋め込みフレームワークを提案する。
本フレームワークは,NAS-Bench-101とNAS-Bench-201データセットに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-09T13:20:02Z) - Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models [18.02840698188587]
本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。
画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:44:43Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。
ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文 参考訳(メタデータ) (2024-12-20T20:46:48Z) - Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
本稿では,事前学習したグラフニューラルネットワークを下流タスクやデータに適用するためのマルチモーダル・プロンプト学習パラダイムを提案する。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
私たちは、GNNを極めて弱いテキスト管理で見えないクラスに一般化できるCLIPスタイルのゼロショット分類プロトタイプを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。