Fugu-MT 論文翻訳(概要): Training Spatial-Frequency Visual Prompts and Probabilistic Clusters for Accurate Black-Box Transfer Learning

論文の概要: Training Spatial-Frequency Visual Prompts and Probabilistic Clusters for Accurate Black-Box Transfer Learning

arxiv url: http://arxiv.org/abs/2408.07944v1
Date: Thu, 15 Aug 2024 05:35:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 14:58:11.655274
Title: Training Spatial-Frequency Visual Prompts and Probabilistic Clusters for Accurate Black-Box Transfer Learning
Title（参考訳）: 正確なブラックボックス変換学習のための空間周波数視覚プロンプトと確率的クラスタの訓練
Authors: Wonwoo Cho, Kangyeol Kim, Saemee Choi, Jaegul Choo,
Abstract要約: そこで本研究では,ブラックボックス環境における視覚認識モデルのためのパラメータ効率変換学習フレームワークを提案する。実験では,広範囲な視覚認識データセットにまたがる数ショットの移動学習環境において,優れた性能を示す。
参考スコア（独自算出の注目度）: 35.72926400167876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the growing prevalence of black-box pre-trained models (PTMs) such as prediction API services, there remains a significant challenge in directly applying general models to real-world scenarios due to the data distribution gap. Considering a data deficiency and constrained computational resource scenario, this paper proposes a novel parameter-efficient transfer learning framework for vision recognition models in the black-box setting. Our framework incorporates two novel training techniques. First, we align the input space (i.e., image) of PTMs to the target data distribution by generating visual prompts of spatial and frequency domain. Along with the novel spatial-frequency hybrid visual prompter, we design a novel training technique based on probabilistic clusters, which can enhance class separation in the output space (i.e., prediction probabilities). In experiments, our model demonstrates superior performance in a few-shot transfer learning setting across extensive visual recognition datasets, surpassing state-of-the-art baselines. Additionally, we show that the proposed method efficiently reduces computational costs for training and inference phases.
Abstract（参考訳）: 予測APIサービスなどのブラックボックス事前学習モデル(PTM)の普及にもかかわらず、データ分散ギャップのため、一般的なモデルを現実のシナリオに直接適用する上で、大きな課題が残っている。本稿では,データ不足と制約付き計算資源のシナリオを考慮し,ブラックボックス環境における視覚認識モデルのためのパラメータ効率のよい移動学習フレームワークを提案する。私たちのフレームワークには2つの新しいトレーニングテクニックが組み込まれています。まず、空間領域と周波数領域の視覚的プロンプトを生成することにより、PTMの入力空間(つまり画像)を対象データ分布に整列する。空間周波数ハイブリッド視覚プロンプトとともに、確率的クラスタに基づく新しいトレーニング手法を設計し、出力空間におけるクラス分離(予測確率)を向上させる。実験では,最先端のベースラインを超えながら,広範囲な視覚認識データセットにまたがる数ショット転送学習環境において,優れた性能を示す。さらに,提案手法は,トレーニングと推論フェーズの計算コストを効率的に削減することを示した。

関連論文リスト

4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文参考訳（メタデータ） (2025-06-27T14:09:29Z)
Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。 Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-18T14:07:13Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-02-22T12:55:01Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Denoising Diffusion Probabilistic Models for Generation of Realistic Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文参考訳（メタデータ） (2023-01-02T14:17:08Z)
Cyclic Graph Attentive Match Encoder (CGAME): A Novel Neural Network For OD Estimation [8.398623478484248]
知的交通システム(ITS)時代における交通管理・交通シミュレーションにおける原位置推定の役割これまでのモデルベースのモデルは、未決定の課題に直面しており、追加の仮定と追加のデータに対する必死な需要が存在する。本稿では,2層アテンション機構を備えた新しいグラフマッチング手法であるC-GAMEを提案する。
論文参考訳（メタデータ） (2021-11-26T08:57:21Z)
Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-17T19:32:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。