論文の概要: ArcSin: Adaptive ranged cosine Similarity injected noise for
Language-Driven Visual Tasks
- arxiv url: http://arxiv.org/abs/2402.17298v1
- Date: Tue, 27 Feb 2024 08:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:11:40.132927
- Title: ArcSin: Adaptive ranged cosine Similarity injected noise for
Language-Driven Visual Tasks
- Title(参考訳): ArcSin: 言語駆動視覚タスクに対する適応的範囲のコサイン類似性注入ノイズ
- Authors: Yang Liu, Xiaomin Yu, Gongyu Zhang, Christos Bergeles, Prokar
Dasgupta, Alejandro Granados, Sebastien Ourselin
- Abstract要約: 言語からの学習と視覚的タスクの推論の間のモダリティギャップを橋渡しする難しい課題に対処する。
適応射程コサイン類似性注入ノイズ(ArcSin)という新しい手法を提案する。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
- 参考スコア(独自算出の注目度): 45.23955785457727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we address the challenging task of bridging the modality gap
between learning from language and inference for visual tasks, including Visual
Question Answering (VQA), Image Captioning (IC) and Visual Entailment (VE). We
train models for these tasks in a zero-shot cross-modal transfer setting, a
domain where the previous state-of-the-art method relied on the fixed scale
noise injection, often compromising the semantic content of the original
modality embedding. To combat it, we propose a novel method called Adaptive
ranged cosine Similarity injected noise (ArcSin). First, we introduce an
innovative adaptive noise scale that effectively generates the textual elements
with more variability while preserving the original text feature's integrity.
Second, a similarity pool strategy is employed, expanding the domain
generalization potential by broadening the overall noise scale. This dual
strategy effectively widens the scope of the original domain while safeguarding
content integrity. Our empirical results demonstrate that these models closely
rival those trained on images in terms of performance. Specifically, our method
exhibits substantial improvements over the previous state-of-the-art, achieving
gains of 1.9 and 1.1 CIDEr points in S-Cap and M-Cap, respectively.
Additionally, we observe increases of 1.5 percentage points (pp), 1.4 pp, and
1.4 pp in accuracy for VQA, VQA-E, and VE, respectively, pushing the boundaries
of what is achievable within the constraints of image-trained model benchmarks.
The code will be released.
- Abstract(参考訳): 本研究では,視覚的質問応答 (VQA) やイメージキャプション (IC) ,ビジュアル・エンターテイメント (VE) など,視覚的タスクに対する言語からの学習と推論の間のモダリティギャップを埋めることの課題に対処する。
我々は、これらのタスクのモデルをゼロショットクロスモーダル転送設定でトレーニングする。このドメインでは、以前のstate-of-the-artメソッドは固定されたスケールのノイズインジェクションに依存しており、しばしば元のモダリティ埋め込みの意味的内容に妥協する。
そこで本研究では,適応射程コサイン類似性注入ノイズ(ArcSin)と呼ばれる新しい手法を提案する。
まず,従来のテキスト特徴の整合性を維持しつつ,より可変性の高いテキスト要素を効果的に生成する適応雑音尺度を提案する。
次に、類似性プール戦略を採用し、全体のノイズスケールを広げることで、ドメイン一般化の可能性を広げる。
この二重戦略は、コンテンツ整合性を守りながら、元のドメインの範囲を効果的に拡大する。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
具体的には,S-Cap と M-Cap の 1.9 と 1.1 の CIDEr 点をそれぞれ獲得した。
さらに, VQA, VQA-E, VEの精度は1.5パーセンテージ(pp), 1.4pp, 1.4ppの増加を観察し, 画像学習モデルベンチマークの制約内で達成可能な領域の境界を押し上げる。
コードはリリースされます。
関連論文リスト
- CAPEEN: Image Captioning with Early Exits and Knowledge Distillation [5.402030962296633]
ディープニューラルネットワーク(DNN)は、視覚要素を認識し、画像キャプションタスクで記述的なテキストを生成することで大きな進歩を遂げている。
EE戦略は効率を高めるために使用できるが、その適応は正確な予測のために様々なレベルの意味情報を必要とするため、画像キャプションにおける課題を示す。
我々は,知識蒸留を用いたEE戦略の性能向上のためにCAPEENを導入した。
論文 参考訳(メタデータ) (2024-10-06T10:05:01Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Prefix Language Models are Unified Modal Learners [30.666873206462295]
そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。
シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
論文 参考訳(メタデータ) (2022-06-15T17:49:38Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。