論文の概要: ViTOC: Vision Transformer and Object-aware Captioner
- arxiv url: http://arxiv.org/abs/2411.07265v1
- Date: Sat, 09 Nov 2024 13:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:30.955735
- Title: ViTOC: Vision Transformer and Object-aware Captioner
- Title(参考訳): ViTOC:視覚変換器とオブジェクト認識キャプタ
- Authors: Feiyang Huang,
- Abstract要約: ViTOCは画像キャプションのための視覚言語モデルであり、生成された記述の正確さと多様性の課題に対処する。
事前訓練された視覚モデルパラメータを利用することで、ViTOCは効率的なエンドツーエンドトレーニングを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents ViTOC (Vision Transformer and Object-aware Captioner), a novel vision-language model for image captioning that addresses the challenges of accuracy and diversity in generated descriptions. Unlike conventional approaches, ViTOC employs a dual-path architecture based on Vision Transformer and object detector, effectively fusing global visual features and local object information through learnable vectors. The model introduces an innovative object-aware prompting strategy that significantly enhances its capability in handling long-tail data. Experiments on the standard COCO dataset demonstrate that ViTOC outperforms baseline models across all evaluation metrics, achieving 71.26 and 17.82 on CIDEr and SPICE, respectively. Additionally, we propose a reference-free evaluation method based on CLIP to further validate the model's effectiveness. By utilizing pretrained visual model parameters, ViTOC achieves efficient end-to-end training.
- Abstract(参考訳): 本稿では、画像キャプションのための視覚言語モデルViTOC(Vision Transformer and Object-Aware Captioner)を提案する。
従来のアプローチとは異なり、ViTOCはビジョントランスフォーマーとオブジェクト検出器をベースとしたデュアルパスアーキテクチャを採用しており、学習可能なベクトルを通して、グローバルな視覚的特徴とローカルなオブジェクト情報を効果的に融合させる。
このモデルは、ロングテールデータを扱う能力を大幅に向上させる革新的なオブジェクト認識プロンプト戦略を導入している。
標準COCOデータセットの実験では、ViTOCはすべての評価指標でベースラインモデルより優れており、それぞれCIDErとSPICEで71.26と17.82を達成している。
さらに,CLIPに基づく参照不要評価手法を提案し,モデルの有効性をさらに検証する。
事前訓練された視覚モデルパラメータを利用することで、ViTOCは効率的なエンドツーエンドトレーニングを実現する。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for
Vision Transformer [0.0]
視覚変換器(ViT)は、画像分類や物体検出などの様々なコンピュータビジョンタスクにおいて優れた性能を示している。
ViTの最先端ソリューションは、クラスアテンション・ロールアウトと関連技術に依存している。
本稿では,注目行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる,新しい勾配のない視覚的説明手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T05:09:50Z) - FedPerfix: Towards Partial Model Personalization of Vision Transformers
in Federated Learning [9.950367271170592]
視覚変換器モデル(ViT)のパーソナライズ方法について検討する。
自己注意層と分類ヘッドがViTの最も敏感な部分であるという知見に基づいて、FedPerfixと呼ばれる新しいアプローチを提案する。
CIFAR-100、OrganAMNIST、Office-Homeのデータセットに対する提案手法の評価を行い、いくつかの先進的なPFL手法と比較してその効果を実証した。
論文 参考訳(メタデータ) (2023-08-17T19:22:30Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z) - Learning View and Target Invariant Visual Servoing for Navigation [9.873635079670093]
ローカルな移動ロボットナビゲーションのための視点不変と目標不変の視覚サーボを学習する。
我々は、目的を達成するために深層畳み込みネットワークコントローラを訓練する。
論文 参考訳(メタデータ) (2020-03-04T20:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。