Fugu-MT 論文翻訳(概要): ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks

論文の概要: ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks

arxiv url: http://arxiv.org/abs/2402.17298v1
Date: Tue, 27 Feb 2024 08:20:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 17:11:40.132927
Title: ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks
Title（参考訳）: ArcSin: 言語駆動視覚タスクに対する適応的範囲のコサイン類似性注入ノイズ
Authors: Yang Liu, Xiaomin Yu, Gongyu Zhang, Christos Bergeles, Prokar Dasgupta, Alejandro Granados, Sebastien Ourselin
Abstract要約: 言語からの学習と視覚的タスクの推論の間のモダリティギャップを橋渡しする難しい課題に対処する。適応射程コサイン類似性注入ノイズ(ArcSin)という新しい手法を提案する。実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
参考スコア（独自算出の注目度）: 45.23955785457727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we address the challenging task of bridging the modality gap between learning from language and inference for visual tasks, including Visual Question Answering (VQA), Image Captioning (IC) and Visual Entailment (VE). We train models for these tasks in a zero-shot cross-modal transfer setting, a domain where the previous state-of-the-art method relied on the fixed scale noise injection, often compromising the semantic content of the original modality embedding. To combat it, we propose a novel method called Adaptive ranged cosine Similarity injected noise (ArcSin). First, we introduce an innovative adaptive noise scale that effectively generates the textual elements with more variability while preserving the original text feature's integrity. Second, a similarity pool strategy is employed, expanding the domain generalization potential by broadening the overall noise scale. This dual strategy effectively widens the scope of the original domain while safeguarding content integrity. Our empirical results demonstrate that these models closely rival those trained on images in terms of performance. Specifically, our method exhibits substantial improvements over the previous state-of-the-art, achieving gains of 1.9 and 1.1 CIDEr points in S-Cap and M-Cap, respectively. Additionally, we observe increases of 1.5 percentage points (pp), 1.4 pp, and 1.4 pp in accuracy for VQA, VQA-E, and VE, respectively, pushing the boundaries of what is achievable within the constraints of image-trained model benchmarks. The code will be released.
Abstract（参考訳）: 本研究では,視覚的質問応答 (VQA) やイメージキャプション (IC) ,ビジュアル・エンターテイメント (VE) など,視覚的タスクに対する言語からの学習と推論の間のモダリティギャップを埋めることの課題に対処する。我々は、これらのタスクのモデルをゼロショットクロスモーダル転送設定でトレーニングする。このドメインでは、以前のstate-of-the-artメソッドは固定されたスケールのノイズインジェクションに依存しており、しばしば元のモダリティ埋め込みの意味的内容に妥協する。そこで本研究では,適応射程コサイン類似性注入ノイズ(ArcSin)と呼ばれる新しい手法を提案する。まず,従来のテキスト特徴の整合性を維持しつつ,より可変性の高いテキスト要素を効果的に生成する適応雑音尺度を提案する。次に、類似性プール戦略を採用し、全体のノイズスケールを広げることで、ドメイン一般化の可能性を広げる。この二重戦略は、コンテンツ整合性を守りながら、元のドメインの範囲を効果的に拡大する。実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。具体的には,S-Cap と M-Cap の 1.9 と 1.1 の CIDEr 点をそれぞれ獲得した。さらに, VQA, VQA-E, VEの精度は1.5パーセンテージ(pp), 1.4pp, 1.4ppの増加を観察し, 画像学習モデルベンチマークの制約内で達成可能な領域の境界を押し上げる。コードはリリースされます。

関連論文リスト

Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation [20.009670139005085]
既存の超音波セグメンテーション法は、しばしば新しいタスクへの適応性に苦しむ。視覚基盤モデルHieraを応用した適応型フレームワークを導入し,マルチスケールな特徴を抽出する。これらのリッチな機能は、精密で堅牢なセグメンテーションを生成するためにデコードされる。
論文参考訳（メタデータ） (2025-03-31T17:47:42Z)
CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文参考訳（メタデータ） (2025-03-24T01:59:29Z)
CAPEEN: Image Captioning with Early Exits and Knowledge Distillation [5.402030962296633]
ディープニューラルネットワーク(DNN)は、視覚要素を認識し、画像キャプションタスクで記述的なテキストを生成することで大きな進歩を遂げている。 EE戦略は効率を高めるために使用できるが、その適応は正確な予測のために様々なレベルの意味情報を必要とするため、画像キャプションにおける課題を示す。我々は,知識蒸留を用いたEE戦略の性能向上のためにCAPEENを導入した。
論文参考訳（メタデータ） (2024-10-06T10:05:01Z)
Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文参考訳（メタデータ） (2024-08-06T09:02:31Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文参考訳（メタデータ） (2023-12-05T07:34:30Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Prefix Language Models are Unified Modal Learners [30.666873206462295]
そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
論文参考訳（メタデータ） (2022-06-15T17:49:38Z)
Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文参考訳（メタデータ） (2020-10-13T00:23:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。