Fugu-MT 論文翻訳(概要): GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution Detection

論文の概要: GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution Detection

arxiv url: http://arxiv.org/abs/2304.04521v4
Date: Tue, 21 Jan 2025 17:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 16:42:35.382204
Title: GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution Detection
Title（参考訳）: GL-MCM:Zero-Shot Out-of-Distribution Detectionのための大域的および局所的最大概念マッチング
Authors: Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa,
Abstract要約: GL-MCM(Global-Local Maximum Concept Matching)を提案する。 GL-MCMは、局所的な画像スコアを補助スコアとして組み込んで、グローバルな視覚的特徴と局所的な視覚的特徴の分離性を高める。 ImageNetとマルチオブジェクトベンチマークの実験は、GL-MCMがベースラインゼロショット法より優れていることを示した。
参考スコア（独自算出の注目度）: 34.208197494036085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zero-shot out-of-distribution (OOD) detection is a task that detects OOD images during inference with only in-distribution (ID) class names. Existing methods assume ID images contain a single, centered object, and do not consider the more realistic multi-object scenarios, where both ID and OOD objects are present. To meet the needs of many users, the detection method must have the flexibility to adapt the type of ID images. To this end, we present Global-Local Maximum Concept Matching (GL-MCM), which incorporates local image scores as an auxiliary score to enhance the separability of global and local visual features. Due to the simple ensemble score function design, GL-MCM can control the type of ID images with a single weight parameter. Experiments on ImageNet and multi-object benchmarks demonstrate that GL-MCM outperforms baseline zero-shot methods and is comparable to fully supervised methods. Furthermore, GL-MCM offers strong flexibility in adjusting the target type of ID images. The code is available via https://github.com/AtsuMiyai/GL-MCM.
Abstract（参考訳）: Zero-shot out-of-distribution (OOD) 検出は、in-distribution (ID)クラス名のみによる推論中にOODイメージを検出するタスクである。既存の手法では、IDイメージには単一の中心オブジェクトが含まれており、IDオブジェクトとOODオブジェクトの両方が存在するような、より現実的なマルチオブジェクトシナリオを考慮していないと仮定している。多くのユーザのニーズを満たすため、検出方法はID画像の種類に適応する柔軟性を持つ必要がある。この目的のために,局所画像スコアをアセプションスコアとして組み込んだGL-MCM(Global-Local Maximum Concept Matching)を提案する。単純なアンサンブルスコア関数の設計のため、GL-MCMは単一の重みパラメータでID画像の種類を制御できる。 ImageNetとマルチオブジェクトベンチマークの実験では、GL-MCMはベースラインゼロショット法よりも優れており、完全に教師された手法に匹敵する。さらに、GL-MCMはターゲットのID画像の調整に強い柔軟性を提供する。コードはhttps://github.com/AtsuMiyai/GL-MCMから入手できる。

関連論文リスト

Bi-directional Self-Registration for Misaligned Infrared-Visible Image Fusion [53.60977801655896]
高品質なマルチモーダル画像融合を実現するためには,高精度なマルチモーダル画像ペアの取得が不可欠である。我々は、新しい自己教師型 textbfBi-directional textbfSelf-textbfRegistration framework (textbfB-SR) を提案する。
論文参考訳（メタデータ） (2025-05-11T09:36:25Z)
Semantic-Guided Global-Local Collaborative Networks for Lightweight Image Super-Resolution [9.666827340439669]
単画像超解像(SISR)は測定システムの精度と信頼性を高める上で重要な役割を担っている。軽量SISRのためのSGGLC-Net(Semantic-Guided Global-Local Collaborative Network)を提案する。
論文参考訳（メタデータ） (2025-03-20T11:43:55Z)
MMO-IG: Multi-Class and Multi-Scale Object Image Generation for Remote Sensing [12.491684385808902]
MMO-IGは、グローバルな面とローカルな面から、教師付きオブジェクトラベルでRS画像を生成するように設計されている。 MMO間の複雑な相互依存性を考慮すると、空間的相互依存知識グラフを構築する。 MMO-IGは、高密度なMMO教師付きラベルを持つRS画像に対して優れた生成能力を示す。
論文参考訳（メタデータ） (2024-12-18T10:19:12Z)
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文参考訳（メタデータ） (2024-12-12T18:59:48Z)
OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [11.085165252259042]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-11-13T14:59:00Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文参考訳（メタデータ） (2024-03-04T13:47:30Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。 2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文参考訳（メタデータ） (2023-08-26T11:39:22Z)
From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文参考訳（メタデータ） (2023-08-20T11:56:25Z)
Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文参考訳（メタデータ） (2023-08-08T03:06:10Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文参考訳（メタデータ） (2023-06-04T02:33:12Z)
Adaptive Graph Convolution Module for Salient Object Detection [7.278033100480174]
本稿では,複雑なシーンを扱うための適応型グラフ畳み込みモジュール(AGCM)を提案する。学習可能な領域生成層を用いて入力画像からプロトタイプ特徴を抽出する。提案したAGCMは,SOD性能を定量的かつ定量的に劇的に向上させる。
論文参考訳（メタデータ） (2023-03-17T07:07:17Z)
CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文参考訳（メタデータ） (2022-11-25T09:41:57Z)
Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。 MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文参考訳（メタデータ） (2021-12-02T04:46:40Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Tasks Integrated Networks: Joint Detection and Retrieval for Image Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文参考訳（メタデータ） (2020-09-03T03:57:50Z)
A Fast Fully Octave Convolutional Neural Network for Document Image Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文参考訳（メタデータ） (2020-04-03T00:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。