論文の概要: ArcSin: Adaptive ranged cosine Similarity injected noise for
Language-Driven Visual Tasks
- arxiv url: http://arxiv.org/abs/2402.17298v1
- Date: Tue, 27 Feb 2024 08:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:11:40.132927
- Title: ArcSin: Adaptive ranged cosine Similarity injected noise for
Language-Driven Visual Tasks
- Title(参考訳): ArcSin: 言語駆動視覚タスクに対する適応的範囲のコサイン類似性注入ノイズ
- Authors: Yang Liu, Xiaomin Yu, Gongyu Zhang, Christos Bergeles, Prokar
Dasgupta, Alejandro Granados, Sebastien Ourselin
- Abstract要約: 言語からの学習と視覚的タスクの推論の間のモダリティギャップを橋渡しする難しい課題に対処する。
適応射程コサイン類似性注入ノイズ(ArcSin)という新しい手法を提案する。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
- 参考スコア(独自算出の注目度): 45.23955785457727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we address the challenging task of bridging the modality gap
between learning from language and inference for visual tasks, including Visual
Question Answering (VQA), Image Captioning (IC) and Visual Entailment (VE). We
train models for these tasks in a zero-shot cross-modal transfer setting, a
domain where the previous state-of-the-art method relied on the fixed scale
noise injection, often compromising the semantic content of the original
modality embedding. To combat it, we propose a novel method called Adaptive
ranged cosine Similarity injected noise (ArcSin). First, we introduce an
innovative adaptive noise scale that effectively generates the textual elements
with more variability while preserving the original text feature's integrity.
Second, a similarity pool strategy is employed, expanding the domain
generalization potential by broadening the overall noise scale. This dual
strategy effectively widens the scope of the original domain while safeguarding
content integrity. Our empirical results demonstrate that these models closely
rival those trained on images in terms of performance. Specifically, our method
exhibits substantial improvements over the previous state-of-the-art, achieving
gains of 1.9 and 1.1 CIDEr points in S-Cap and M-Cap, respectively.
Additionally, we observe increases of 1.5 percentage points (pp), 1.4 pp, and
1.4 pp in accuracy for VQA, VQA-E, and VE, respectively, pushing the boundaries
of what is achievable within the constraints of image-trained model benchmarks.
The code will be released.
- Abstract(参考訳): 本研究では,視覚的質問応答 (VQA) やイメージキャプション (IC) ,ビジュアル・エンターテイメント (VE) など,視覚的タスクに対する言語からの学習と推論の間のモダリティギャップを埋めることの課題に対処する。
我々は、これらのタスクのモデルをゼロショットクロスモーダル転送設定でトレーニングする。このドメインでは、以前のstate-of-the-artメソッドは固定されたスケールのノイズインジェクションに依存しており、しばしば元のモダリティ埋め込みの意味的内容に妥協する。
そこで本研究では,適応射程コサイン類似性注入ノイズ(ArcSin)と呼ばれる新しい手法を提案する。
まず,従来のテキスト特徴の整合性を維持しつつ,より可変性の高いテキスト要素を効果的に生成する適応雑音尺度を提案する。
次に、類似性プール戦略を採用し、全体のノイズスケールを広げることで、ドメイン一般化の可能性を広げる。
この二重戦略は、コンテンツ整合性を守りながら、元のドメインの範囲を効果的に拡大する。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
具体的には,S-Cap と M-Cap の 1.9 と 1.1 の CIDEr 点をそれぞれ獲得した。
さらに, VQA, VQA-E, VEの精度は1.5パーセンテージ(pp), 1.4pp, 1.4ppの増加を観察し, 画像学習モデルベンチマークの制約内で達成可能な領域の境界を押し上げる。
コードはリリースされます。
関連論文リスト
- Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Condition-Invariant Semantic Segmentation [84.2267063249525]
従来の研究は、ほとんどの特徴レベル適応法は、敵対的訓練を採用し、合成から現実的適応で検証されているが、条件レベル適応において限界的な利得をもたらすことを示した。
本稿では,ネットワークのエンコーダから抽出した内部ネットワーク機能を元から整列させることにより,特徴レベルの適応を行う上で,スタイリングを活用することを提案する。
本研究では,現状のドメイン適応アーキテクチャに基づいて条件-不変(Condition-Invariant, CISS)という手法を実装し,条件レベル適応の優れた結果を得る。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Intra-Source Style Augmentation for Improved Domain Generalization [21.591831983223997]
セマンティックセグメンテーションにおける領域一般化を改善するために,イントラソーススタイル拡張(ISSA)手法を提案する。
ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。
また、Cityscapes から Dark Z"urich の最近の最先端ソリューション RobustNet を $3%$ mIoU で改善するなど、他の領域の一般化手法を補完する。
論文 参考訳(メタデータ) (2022-10-18T21:33:25Z) - DFM: A Performance Baseline for Deep Feature Matching [10.014010310188821]
提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。
提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)で0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。
論文 参考訳(メタデータ) (2021-06-14T22:55:06Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。