論文の概要: OSIC: A New One-Stage Image Captioner Coined
- arxiv url: http://arxiv.org/abs/2211.02321v1
- Date: Fri, 4 Nov 2022 08:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:54:21.395104
- Title: OSIC: A New One-Stage Image Captioner Coined
- Title(参考訳): OSIC:新しいワンステップ画像キャプチャー
- Authors: Bo Wang, Zhao Zhang, Mingbo Zhao, Xiaojie Jin, Mingliang Xu, Meng Wang
- Abstract要約: 動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
- 参考スコア(独自算出の注目度): 38.46732302316068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream image caption models are usually two-stage captioners, i.e.,
calculating object features by pre-trained detector, and feeding them into a
language model to generate text descriptions. However, such an operation will
cause a task-based information gap to decrease the performance, since the
object features in detection task are suboptimal representation and cannot
provide all necessary information for subsequent text generation. Besides,
object features are usually represented by the last layer features that lose
the local details of input images. In this paper, we propose a novel One-Stage
Image Captioner (OSIC) with dynamic multi-sight learning, which directly
transforms input image into descriptive sentences in one stage. As a result,
the task-based information gap can be greatly reduced. To obtain rich features,
we use the Swin Transformer to calculate multi-level features, and then feed
them into a novel dynamic multi-sight embedding module to exploit both global
structure and local texture of input images. To enhance the global modeling of
encoder for caption, we propose a new dual-dimensional refining module to
non-locally model the interaction of the embedded features. Finally, OSIC can
obtain rich and useful information to improve the image caption task. Extensive
comparisons on benchmark MS-COCO dataset verified the superior performance of
our method.
- Abstract(参考訳): 主流画像キャプションモデルは、通常2段階のキャプション、すなわち事前訓練された検出器によってオブジェクトの特徴を計算し、それらを言語モデルに入力してテキスト記述を生成する。
しかし、このような操作は、検出タスクにおけるオブジェクトの特徴が最適以下であり、その後のテキスト生成に必要な情報をすべて提供できないため、タスクベースの情報ギャップを生じさせる。
さらに、オブジェクト機能は、通常、入力画像の局所的な詳細を失う最後のレイヤ機能で表現される。
本稿では,入力画像を直接記述文に変換する動的多視点学習を備えた,新しい一段階画像キャプション(osic)を提案する。
これにより、タスクベースの情報ギャップを大幅に低減することができる。
リッチな特徴を得るために,多レベル特徴の計算にswinトランスを使用し,それらを新しい動的多眼埋め込みモジュールに供給し,入力画像のグローバル構造と局所テクスチャの両方を利用する。
キャプション用エンコーダのグローバルなモデリングを強化するため,埋め込み特徴の相互作用を非局所的にモデル化する2次元精製モジュールを提案する。
最後に、OSICは画像キャプションタスクを改善するために、リッチで有用な情報を得ることができる。
ベンチマークMS-COCOデータセットの大規模な比較により,本手法の優れた性能が確認された。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。