論文の概要: The style transformer with common knowledge optimization for image-text
retrieval
- arxiv url: http://arxiv.org/abs/2303.00448v1
- Date: Wed, 1 Mar 2023 12:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 14:57:07.817164
- Title: The style transformer with common knowledge optimization for image-text
retrieval
- Title(参考訳): 画像テキスト検索のための共通知識最適化型スタイルトランス
- Authors: Wenrui Li, Zhengyu Ma, Xiaopeng Fan
- Abstract要約: 画像テキスト検索のための共通知識最適化(CKSTN)を用いた新しいスタイルトランスフォーマーネットワークを提案する。
メインモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。
CKSTNは、MSCOCOとFlickr30Kデータセット上の画像テキスト検索における最先端の手法の結果より優れている。
- 参考スコア(独自算出の注目度): 12.485750995185493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text retrieval which associates different modalities has drawn broad
attention due to its excellent research value and broad real-world application.
While the algorithms keep updated, most of them haven't taken the high-level
semantic relationships ("style embedding") and common knowledge from
multi-modalities into full consideration. To this end, we propose a novel style
transformer network with common knowledge optimization (CKSTN) for image-text
retrieval. The main module is the common knowledge adaptor (CKA) with both the
style embedding extractor (SEE) and the common knowledge optimization (CKO)
modules. Specifically, the SEE is designed to effectively extract high-level
features. The CKO module is introduced to dynamically capture the latent
concepts of common knowledge from different modalities. Together, they could
assist in the formation of item representations in lightweight transformers.
Besides, to get generalized temporal common knowledge, we propose a sequential
update strategy to effectively integrate the features of different layers in
SEE with previous common feature units. CKSTN outperforms the results of
state-of-the-art methods in image-text retrieval on MSCOCO and Flickr30K
datasets. Moreover, CKSTN is more convenient and practical for the application
of real scenes, due to the better performance and lower parameters.
- Abstract(参考訳): 異なるモダリティを関連付ける画像テキスト検索は,その優れた研究価値と広い実世界の応用により,広く注目を集めている。
アルゴリズムは更新され続けているが、そのほとんどは、マルチモダリティからの高レベルのセマンティックな関係(スタイル埋め込み)と共通知識を十分に考慮していない。
そこで本稿では,画像テキスト検索のための共通知識最適化(CKSTN)を備えた新しいスタイルトランスフォーマネットワークを提案する。
主なモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。
具体的には、SEEは高レベルな特徴を効果的に抽出するように設計されている。
CKOモジュールは、様々なモダリティから共通知識の潜在概念を動的に捉えるために導入された。
同時に、軽量トランスフォーマーにおけるアイテム表現の形成を支援することができる。
さらに、時間的共通知識を一般化するために、SEE内の異なるレイヤの特徴を従来の共通特徴ユニットと効果的に統合するためのシーケンシャルな更新戦略を提案する。
CKSTNは、MSCOCOとFlickr30Kデータセット上の画像テキスト検索における最先端の手法の結果より優れている。
さらに、CKSTNは性能が良く、パラメータも低いため、実際のシーンに適用するのに便利で実用的である。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - ConaCLIP: Exploring Distillation of Fully-Connected Knowledge
Interaction Graph for Lightweight Text-Image Retrieval [35.32145650252095]
本研究では, クロスモーダル予混合蒸留のための完全連結知識相互作用グラフ(Cona)手法を提案する。
その結果,コンナクリップSOTAはFlickr30KとMSCOCOのベンチマークで軽量な設定で動作することがわかった。
論文 参考訳(メタデータ) (2023-05-28T07:16:44Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。