論文の概要: ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks
- arxiv url: http://arxiv.org/abs/2402.17298v2
- Date: Fri, 22 Nov 2024 16:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:24.616934
- Title: ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks
- Title(参考訳): ArcSin: 言語駆動視覚タスクに対する適応的範囲のコサイン類似性注入ノイズ
- Authors: Yang Liu, Xiaomin Yu, Gongyu Zhang, Zhen Zhu, Christos Bergeles, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin,
- Abstract要約: 本稿では,視覚言語学習のための画像入力をテキストに置き換える。
先行ノイズ注入法に着想を得て、適応範囲のコサイン類似性注入ノイズ(ArcSin)を導入する。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
- 参考スコア(独自算出の注目度): 43.42682181017004
- License:
- Abstract: "A data scientist is tasked with developing a low-cost surgical VQA system for a 2-month workshop. Due to data sensitivity, she collects 50 hours of surgical video from a hospital, requiring two months for privacy approvals. Privacy restrictions prevent uploading data to platforms like ChatGPT, so she assembles one annotator and a medical expert to manually create QA pairs. This process takes three weeks and costs over $10,000. The trained model provides accurate responses within the limited data scope but lacks broader generalizability, completing the project in 3 months." To simplify the challenges presented in the scenario above. In this paper, we replace the image input with text for Vision-language training. Inspired by prior noise injection methods to reduce modality gaps, we introduce Adaptive ranged cosine Similarity injected noise (ArcSin). First, we introduce an innovative adaptive noise scale that effectively generates the textual elements with more variability while preserving the original text feature's integrity. Second, a similarity pool strategy is employed, expanding the domain generalization potential by broadening the overall noise scale. This dual strategy effectively broadens the scope of the original domain while safeguarding content integrity. Our empirical results demonstrate that these models closely rival those trained on images in terms of performance. Specifically, our method exhibits substantial improvements over the previous state-of-the-art, achieving gains of 1.9 and 1.1 CIDEr points in S-Cap and M-Cap, respectively. Additionally, we observe increases of 0.5 percentage points (pp), 1.4 pp, and 1.4 pp in accuracy for VQA, VQA-E, and VE, respectively, pushing the boundaries of what is achievable within the constraints of image-trained model benchmarks.
- Abstract(参考訳): 「データ科学者は、2ヶ月のワークショップで低コストの手術用VQAシステムの開発を任されている。データ感度のため、病院から50時間の手術用ビデオを収集し、プライバシー承認を2ヶ月必要としている。プライバシー制限により、ChatGPTのようなプラットフォームへのデータのアップロードが禁止されているため、1つのアノテーションと医療専門家を組み立ててQAペアを手作業で作成できる。このプロセスは3週間以上かかり、1万ドル以上かかる。この訓練されたモデルは、限られたデータの範囲内で正確な応答を提供するが、より広範な一般化性に欠けており、3ヶ月でプロジェクトを完成させる。」
本稿では,視覚言語学習のための画像入力をテキストに置き換える。
モータリティギャップを低減するための先行ノイズ注入法に着想を得て,適応範囲のコサイン類似性注入ノイズ(ArcSin)を導入する。
まず,従来のテキスト特徴の整合性を維持しつつ,より可変性の高いテキスト要素を効果的に生成する,革新的な適応雑音尺度を提案する。
第二に、類似性プール戦略を採用し、全体的なノイズスケールを広げることで、領域一般化の可能性を広げる。
この二重戦略は、コンテンツ整合性を守りながら、元のドメインの範囲を効果的に広げます。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
具体的には,S-Cap と M-Cap の 1.9 と 1.1 の CIDEr 点をそれぞれ獲得した。
さらに,VQA,VQA-E,VEの精度は0.5パーセンテージ(pp),1.4pp,1.4ppの増加を観察し,画像学習モデルベンチマークの制約内で達成可能な領域の境界を押し上げる。
関連論文リスト
- CAPEEN: Image Captioning with Early Exits and Knowledge Distillation [5.402030962296633]
ディープニューラルネットワーク(DNN)は、視覚要素を認識し、画像キャプションタスクで記述的なテキストを生成することで大きな進歩を遂げている。
EE戦略は効率を高めるために使用できるが、その適応は正確な予測のために様々なレベルの意味情報を必要とするため、画像キャプションにおける課題を示す。
我々は,知識蒸留を用いたEE戦略の性能向上のためにCAPEENを導入した。
論文 参考訳(メタデータ) (2024-10-06T10:05:01Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Prefix Language Models are Unified Modal Learners [30.666873206462295]
そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。
シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
論文 参考訳(メタデータ) (2022-06-15T17:49:38Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。