Fugu-MT 論文翻訳(概要): A Critical Look at the Current Usage of Foundation Model for Dense Recognition Task

論文の概要: A Critical Look at the Current Usage of Foundation Model for Dense Recognition Task

arxiv url: http://arxiv.org/abs/2307.02862v1
Date: Thu, 6 Jul 2023 08:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 14:46:57.420698
Title: A Critical Look at the Current Usage of Foundation Model for Dense Recognition Task
Title（参考訳）: 集中認識タスクにおける基礎モデルの利用状況に関する批判的考察
Authors: Shiqi Yang, Atsushi Hashimoto, Yoshitaka Ushiku
Abstract要約: 膨大なモダリティデータに基づいて訓練された大規模なモデルは、通常基礎モデルと呼ばれ、多くの分野において顕著な達成を達成する。これらの基盤モデルが他の下流タスクに適用できるかどうかはまだ不明である。
参考スコア（独自算出の注目度）: 26.938332354370814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years large model trained on huge amount of cross-modality data, which is usually be termed as foundation model, achieves conspicuous accomplishment in many fields, such as image recognition and generation. Though achieving great success in their original application case, it is still unclear whether those foundation models can be applied to other different downstream tasks. In this paper, we conduct a short survey on the current methods for discriminative dense recognition tasks, which are built on the pretrained foundation model. And we also provide some preliminary experimental analysis of an existing open-vocabulary segmentation method based on Stable Diffusion, which indicates the current way of deploying diffusion model for segmentation is not optimal. This aims to provide insights for future research on adopting foundation model for downstream task.
Abstract（参考訳）: 近年, 画像認識や生成など多くの分野において, 膨大なモダリティデータを学習した大規模モデルは, 基礎モデルと呼ばれることが多いが, 顕著な達成を達成している。当初のアプリケーションでは大きな成功を収めたものの、これらの基盤モデルが他のダウンストリームタスクにも適用できるかどうかはまだ不明である。本稿では,事前学習した基礎モデルに基づく識別的高密度化タスクの手法に関する簡単な調査を行う。また,Stable Diffusionに基づく既存の開語彙セグメンテーション手法の予備的検討を行い,セグメンテーションのための拡散モデルの展開方法が最適でないことを示す。これは、下流タスクに基礎モデルを採用するための将来の研究のための洞察を提供することを目的としている。

関連論文リスト

DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks [79.50756148780928]
本稿では,事前学習した拡散モデルを用いて識別課題を遂行する問題について検討する。我々は、事前学習されたレイアウト・ツー・イメージ拡散モデルの「反転」により、事前学習した凍結生成拡散モデルの識別能力を分類タスクからより複雑なオブジェクト検出タスクに拡張する。
論文参考訳（メタデータ） (2025-04-24T05:13:27Z)
Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations [1.8142185304787555]
本稿では,全アノテーションを必要とせず,下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
論文参考訳（メタデータ） (2025-01-30T16:48:02Z)
FRoundation: Are Foundation Models Ready for Face Recognition? [8.045296450065019]
本稿では,さまざまなレベルのデータ・アベイラビリティーにおいて,顔認識のための基礎モデルの適応性を提案し,実証する。本研究の結果は, 汎用性にもかかわらず, 事前学習した基礎モデルでは顔認識が不十分であることが示唆された。微調整ファウンデーションモデルは、トレーニングデータに制限がある場合、しばしばスクラッチからトレーニングされたモデルを上回る、有望な結果をもたらす。
論文参考訳（メタデータ） (2024-10-31T11:21:21Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
Learning Diffusion Priors from Observations by Expectation Maximization [6.224769485481242]
不完全および雑音のみから拡散モデルをトレーニングするための予測最大化アルゴリズムに基づく新しい手法を提案する。提案手法は,非条件拡散モデルに対する改良された後続サンプリング方式の提案と動機付けである。
論文参考訳（メタデータ） (2024-05-22T15:04:06Z)
Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文参考訳（メタデータ） (2024-03-13T12:52:37Z)
On the Out of Distribution Robustness of Foundation Models in Medical Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文参考訳（メタデータ） (2023-11-18T14:52:10Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)
Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文参考訳（メタデータ） (2022-04-14T13:23:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。