論文の概要: The style transformer with common knowledge optimization for image-text
retrieval
- arxiv url: http://arxiv.org/abs/2303.00448v2
- Date: Mon, 3 Apr 2023 11:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 21:10:50.463102
- Title: The style transformer with common knowledge optimization for image-text
retrieval
- Title(参考訳): 画像テキスト検索のための共通知識最適化型スタイルトランス
- Authors: Wenrui Li, Zhengyu Ma, Jinqiao Shi, Xiaopeng Fan
- Abstract要約: 画像テキスト検索のための共通知識最適化(CKSTN)を備えた新しいスタイルトランスフォーマーネットワークを提案する。
メインモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。
CKSTNは、MSCOCOおよびFlickr30Kデータセット上の画像テキスト検索における最先端手法の優位性を実証する。
- 参考スコア(独自算出の注目度): 11.277537594158677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text retrieval which associates different modalities has drawn broad
attention due to its excellent research value and broad real-world application.
However, most of the existing methods haven't taken the high-level semantic
relationships ("style embedding") and common knowledge from multi-modalities
into full consideration. To this end, we introduce a novel style transformer
network with common knowledge optimization (CKSTN) for image-text retrieval.
The main module is the common knowledge adaptor (CKA) with both the style
embedding extractor (SEE) and the common knowledge optimization (CKO) modules.
Specifically, the SEE uses the sequential update strategy to effectively
connect the features of different stages in SEE. The CKO module is introduced
to dynamically capture the latent concepts of common knowledge from different
modalities. Besides, to get generalized temporal common knowledge, we propose a
sequential update strategy to effectively integrate the features of different
layers in SEE with previous common feature units. CKSTN demonstrates the
superiorities of the state-of-the-art methods in image-text retrieval on MSCOCO
and Flickr30K datasets. Moreover, CKSTN is constructed based on the lightweight
transformer which is more convenient and practical for the application of real
scenes, due to the better performance and lower parameters.
- Abstract(参考訳): 異なるモダリティを関連付ける画像テキスト検索は,その優れた研究価値と広い実世界の応用により,広く注目を集めている。
しかし、既存の手法のほとんどは、高レベルの意味的関係(スタイル埋め込み)とマルチモーダルからの共通知識を十分に考慮していない。
そこで本稿では,画像テキスト検索のための共通知識最適化(CKSTN)を備えた新しいスタイルトランスフォーマーネットワークを提案する。
主なモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。
具体的には、SEEはシーケンシャルアップデート戦略を使用して、SEEの異なるステージの特徴を効果的に接続します。
CKOモジュールは、様々なモダリティから共通知識の潜在概念を動的に捉えるために導入された。
さらに、時間的共通知識を一般化するために、SEE内の異なるレイヤの特徴を従来の共通特徴ユニットと効果的に統合するためのシーケンシャルな更新戦略を提案する。
CKSTNは、MSCOCOおよびFlickr30Kデータセット上の画像テキスト検索における最先端手法の優位性を実証する。
さらに、CKSTNは、より優れた性能と低いパラメータのため、実際のシーンに適用するためにより便利で実用的な軽量トランスフォーマーに基づいて構築される。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - ConaCLIP: Exploring Distillation of Fully-Connected Knowledge
Interaction Graph for Lightweight Text-Image Retrieval [35.32145650252095]
本研究では, クロスモーダル予混合蒸留のための完全連結知識相互作用グラフ(Cona)手法を提案する。
その結果,コンナクリップSOTAはFlickr30KとMSCOCOのベンチマークで軽量な設定で動作することがわかった。
論文 参考訳(メタデータ) (2023-05-28T07:16:44Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。