論文の概要: A Critical Look at the Current Usage of Foundation Model for Dense
Recognition Task
- arxiv url: http://arxiv.org/abs/2307.02862v2
- Date: Tue, 1 Aug 2023 06:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:19:31.233384
- Title: A Critical Look at the Current Usage of Foundation Model for Dense
Recognition Task
- Title(参考訳): 集中認識タスクにおける基礎モデルの利用状況に関する批判的考察
- Authors: Shiqi Yang, Atsushi Hashimoto, Yoshitaka Ushiku
- Abstract要約: 膨大なモダリティデータに基づいて訓練された大規模なモデルは、通常基礎モデルと呼ばれ、多くの分野において顕著な達成を達成する。
これらの基盤モデルが他の下流タスクに適用できるかどうかはまだ不明である。
- 参考スコア(独自算出の注目度): 26.938332354370814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years large model trained on huge amount of cross-modality data,
which is usually be termed as foundation model, achieves conspicuous
accomplishment in many fields, such as image recognition and generation. Though
achieving great success in their original application case, it is still unclear
whether those foundation models can be applied to other different downstream
tasks. In this paper, we conduct a short survey on the current methods for
discriminative dense recognition tasks, which are built on the pretrained
foundation model. And we also provide some preliminary experimental analysis of
an existing open-vocabulary segmentation method based on Stable Diffusion,
which indicates the current way of deploying diffusion model for segmentation
is not optimal. This aims to provide insights for future research on adopting
foundation model for downstream task.
- Abstract(参考訳): 近年, 画像認識や生成など多くの分野において, 膨大なモダリティデータを学習した大規模モデルは, 基礎モデルと呼ばれることが多いが, 顕著な達成を達成している。
当初のアプリケーションでは大きな成功を収めたものの、これらの基盤モデルが他のダウンストリームタスクにも適用できるかどうかはまだ不明である。
本稿では,事前学習した基礎モデルに基づく識別的高密度化タスクの手法に関する簡単な調査を行う。
また,Stable Diffusionに基づく既存の開語彙セグメンテーション手法の予備的検討を行い,セグメンテーションのための拡散モデルの展開方法が最適でないことを示す。
これは、下流タスクに基礎モデルを採用するための将来の研究のための洞察を提供することを目的としている。
関連論文リスト
- Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Comparing Foundation Models using Data Kernels [13.099029073152257]
基礎モデルの埋め込み空間幾何学を直接比較するための方法論を提案する。
提案手法はランダムグラフ理論に基づいており, 埋め込み類似性の有効な仮説検証を可能にする。
本稿では, 距離関数を付加したモデルの多様体が, 下流の指標と強く相関することを示す。
論文 参考訳(メタデータ) (2023-05-09T02:01:07Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。