Fugu-MT 論文翻訳(概要): The style transformer with common knowledge optimization for image-text retrieval

論文の概要: The style transformer with common knowledge optimization for image-text retrieval

arxiv url: http://arxiv.org/abs/2303.00448v2
Date: Mon, 3 Apr 2023 11:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 21:10:50.463102
Title: The style transformer with common knowledge optimization for image-text retrieval
Title（参考訳）: 画像テキスト検索のための共通知識最適化型スタイルトランス
Authors: Wenrui Li, Zhengyu Ma, Jinqiao Shi, Xiaopeng Fan
Abstract要約: 画像テキスト検索のための共通知識最適化(CKSTN)を備えた新しいスタイルトランスフォーマーネットワークを提案する。メインモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。 CKSTNは、MSCOCOおよびFlickr30Kデータセット上の画像テキスト検索における最先端手法の優位性を実証する。
参考スコア（独自算出の注目度）: 11.277537594158677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-text retrieval which associates different modalities has drawn broad attention due to its excellent research value and broad real-world application. However, most of the existing methods haven't taken the high-level semantic relationships ("style embedding") and common knowledge from multi-modalities into full consideration. To this end, we introduce a novel style transformer network with common knowledge optimization (CKSTN) for image-text retrieval. The main module is the common knowledge adaptor (CKA) with both the style embedding extractor (SEE) and the common knowledge optimization (CKO) modules. Specifically, the SEE uses the sequential update strategy to effectively connect the features of different stages in SEE. The CKO module is introduced to dynamically capture the latent concepts of common knowledge from different modalities. Besides, to get generalized temporal common knowledge, we propose a sequential update strategy to effectively integrate the features of different layers in SEE with previous common feature units. CKSTN demonstrates the superiorities of the state-of-the-art methods in image-text retrieval on MSCOCO and Flickr30K datasets. Moreover, CKSTN is constructed based on the lightweight transformer which is more convenient and practical for the application of real scenes, due to the better performance and lower parameters.
Abstract（参考訳）: 異なるモダリティを関連付ける画像テキスト検索は,その優れた研究価値と広い実世界の応用により,広く注目を集めている。しかし、既存の手法のほとんどは、高レベルの意味的関係(スタイル埋め込み)とマルチモーダルからの共通知識を十分に考慮していない。そこで本稿では,画像テキスト検索のための共通知識最適化(CKSTN)を備えた新しいスタイルトランスフォーマーネットワークを提案する。主なモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。具体的には、SEEはシーケンシャルアップデート戦略を使用して、SEEの異なるステージの特徴を効果的に接続します。 CKOモジュールは、様々なモダリティから共通知識の潜在概念を動的に捉えるために導入された。さらに、時間的共通知識を一般化するために、SEE内の異なるレイヤの特徴を従来の共通特徴ユニットと効果的に統合するためのシーケンシャルな更新戦略を提案する。 CKSTNは、MSCOCOおよびFlickr30Kデータセット上の画像テキスト検索における最先端手法の優位性を実証する。さらに、CKSTNは、より優れた性能と低いパラメータのため、実際のシーンに適用するためにより便利で実用的な軽量トランスフォーマーに基づいて構築される。

関連論文リスト

DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。一般化を強化するために2つの補完正則化戦略を統合する。さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-26T00:14:52Z)
Feature-based Graph Attention Networks Improve Online Continual Learning [19.557518080476566]
グラフ注意ネットワーク(GAT)に基づく新しいオンライン連続学習フレームワークを提案する。 GATは文脈的関係を効果的に捉え、学習された注意重みを通してタスク固有の表現を動的に更新する。また,メモリ予算を維持しつつ,以前のタスクの表現を改善するリハーサルメモリ複製手法を提案する。
論文参考訳（メタデータ） (2025-02-13T10:18:44Z)
Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文参考訳（メタデータ） (2025-01-11T13:53:10Z)
Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文参考訳（メタデータ） (2024-07-16T14:27:23Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Concept-Guided Prompt Learning for Generalization in Vision-Language Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。 Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文参考訳（メタデータ） (2024-01-15T04:04:47Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)
ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval [35.32145650252095]
本研究では, クロスモーダル予混合蒸留のための完全連結知識相互作用グラフ(Cona)手法を提案する。その結果,コンナクリップSOTAはFlickr30KとMSCOCOのベンチマークで軽量な設定で動作することがわかった。
論文参考訳（メタデータ） (2023-05-28T07:16:44Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文参考訳（メタデータ） (2021-04-16T13:27:45Z)
FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文参考訳（メタデータ） (2020-07-16T17:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。