Fugu-MT 論文翻訳(概要): Where's Waldo: Diffusion Features for Personalized Segmentation and Retrieval

論文の概要: Where's Waldo: Diffusion Features for Personalized Segmentation and Retrieval

arxiv url: http://arxiv.org/abs/2405.18025v2
Date: Mon, 30 Sep 2024 12:50:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 22:38:29.894007
Title: Where's Waldo: Diffusion Features for Personalized Segmentation and Retrieval
Title（参考訳）: Waldo:パーソナライズされたセグメンテーションと検索のための拡散機能
Authors: Dvir Samuel, Rami Ben-Ari, Matan Levy, Nir Darshan, Gal Chechik,
Abstract要約: これらのタスクには、教師付き手法に匹敵する結果を示す自己教師付き基礎モデルが導入されている。これらのモデルは、同じクラス内の他のインスタンスが提示されたときに、望ましいインスタンスを見つけるのに苦労している。本稿では, PDM for Personalized Features Diffusion Matching という新しい手法を提案する。
参考スコア（独自算出の注目度）: 31.48981364573974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Personalized retrieval and segmentation aim to locate specific instances within a dataset based on an input image and a short description of the reference instance. While supervised methods are effective, they require extensive labeled data for training. Recently, self-supervised foundation models have been introduced to these tasks showing comparable results to supervised methods. However, a significant flaw in these models is evident: they struggle to locate a desired instance when other instances within the same class are presented. In this paper, we explore text-to-image diffusion models for these tasks. Specifically, we propose a novel approach called PDM for Personalized Features Diffusion Matching, that leverages intermediate features of pre-trained text-to-image models for personalization tasks without any additional training. PDM demonstrates superior performance on popular retrieval and segmentation benchmarks, outperforming even supervised methods. We also highlight notable shortcomings in current instance and segmentation datasets and propose new benchmarks for these tasks.
Abstract（参考訳）: パーソナライズされた検索とセグメンテーションは、入力画像と参照インスタンスの短い記述に基づいて、データセット内の特定のインスタンスを特定することを目的としている。教師付き手法は効果的であるが、トレーニングには広範なラベル付きデータが必要である。近年, 自己教師付き基礎モデルがこれらのタスクに導入され, 教師付き手法に匹敵する結果が得られた。しかし、これらのモデルの重大な欠陥は明らかであり、同じクラス内の他のインスタンスが提示されたときに、望ましいインスタンスを見つけるのに苦労している。本稿では,これらの課題に対するテキスト・画像拡散モデルについて検討する。具体的には, PDM for Personalized Features Diffusion Matching という新たな手法を提案する。 PDMは一般的な検索とセグメンテーションのベンチマークにおいて優れた性能を示し、教師付き手法よりも優れている。また、現在のインスタンスとセグメンテーションデータセットの顕著な欠点を強調し、これらのタスクのための新しいベンチマークを提案する。

関連論文リスト

Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations [1.8142185304787555]
本稿では,全アノテーションを必要とせず,下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
論文参考訳（メタデータ） (2025-01-30T16:48:02Z)
Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文参考訳（メタデータ） (2023-11-17T21:58:26Z)
Shatter and Gather: Learning Referring Image Segmentation with Text Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文参考訳（メタデータ） (2023-08-29T15:39:15Z)
Semi-Supervised Learning for hyperspectral images by non parametrically predicting view assignment [25.198550162904713]
ハイパースペクトル画像(HSI)分類は、画像中のスペクトル情報が高いため、現在、多くの勢いを増している。近年,ラベル付きサンプルを最小限に抑えたディープラーニングモデルを効果的に訓練するために,ラベル付きサンプルも自己教師付きおよび半教師付き設定で活用されている。本研究では,半教師付き学習の概念を利用して,モデルの識別的自己教師型事前学習を支援する。
論文参考訳（メタデータ） (2023-06-19T14:13:56Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文参考訳（メタデータ） (2022-10-06T00:33:01Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)
DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文参考訳（メタデータ） (2020-04-28T12:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。