Fugu-MT 論文翻訳(概要): Masked Cross-image Encoding for Few-shot Segmentation

論文の概要: Masked Cross-image Encoding for Few-shot Segmentation

arxiv url: http://arxiv.org/abs/2308.11201v1
Date: Tue, 22 Aug 2023 05:36:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 19:05:33.309790
Title: Masked Cross-image Encoding for Few-shot Segmentation
Title（参考訳）: Few-shot Segmentationのためのマスク付きクロスイメージ符号化
Authors: Wenbo Xu, Huaxi Huang, Ming Cheng, Litao Yu, Qiang Wu, Jian Zhang
Abstract要約: Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。本研究では,オブジェクトの詳細を記述した共通視覚特性をキャプチャし,特徴の相互作用を高める双方向画像間の依存関係を学習する,Masked Cross-Image MCEという共同学習手法を提案する。
参考スコア（独自算出の注目度）: 16.445813548503708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot segmentation (FSS) is a dense prediction task that aims to infer the pixel-wise labels of unseen classes using only a limited number of annotated images. The key challenge in FSS is to classify the labels of query pixels using class prototypes learned from the few labeled support exemplars. Prior approaches to FSS have typically focused on learning class-wise descriptors independently from support images, thereby ignoring the rich contextual information and mutual dependencies among support-query features. To address this limitation, we propose a joint learning method termed Masked Cross-Image Encoding (MCE), which is designed to capture common visual properties that describe object details and to learn bidirectional inter-image dependencies that enhance feature interaction. MCE is more than a visual representation enrichment module; it also considers cross-image mutual dependencies and implicit guidance. Experiments on FSS benchmarks PASCAL-$5^i$ and COCO-$20^i$ demonstrate the advanced meta-learning ability of the proposed method.
Abstract（参考訳）: Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。 FSSの主な課題は、少数のラベル付きサポート例から学んだクラスプロトタイプを使用して、クエリピクセルのラベルを分類することである。 FSSの以前のアプローチは、サポートイメージから独立してクラスワイド記述子を学ぶことに集中しており、サポートクエリ機能間のリッチなコンテキスト情報や相互依存関係を無視している。そこで本稿では,この制限に対処するために,オブジェクトの詳細を記述する共通視覚特性をキャプチャし,画像間の双方向依存性を学習し,特徴の相互作用を高めるために,マスククロスイメージ符号化(mce)と呼ばれる共同学習手法を提案する。 MCEは視覚表現エンリッチメントモジュール以上のもので、相互依存と暗黙のガイダンスも考慮している。 FSSベンチマーク PASCAL-$5^i$ と COCO-$20^i$ の実験では,提案手法の高度なメタ学習能力を実証している。

関連論文リスト

DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-06T01:42:28Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
Multi-Label Self-Supervised Learning with Scene Images [21.549234013998255]
本稿では,シーン/マルチラベル画像SSLを多ラベル分類問題として扱うことで,画質の表現を学習可能であることを示す。提案手法はMulti-Label Self-supervised Learning (MLS) と呼ばれる。
論文参考訳（メタデータ） (2023-08-07T04:04:22Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Iterative Few-shot Semantic Segmentation from Image Label Text [36.53926941601841]
ほとんどショットのセマンティックセマンティックセマンティクスは、いくつかのサポートイメージのガイダンスで、目に見えないクラスオブジェクトのセマンティクスを学ぶことを目的としている。本稿では、強力な視覚言語モデルCLIPの助けを借りて、粗いマスクを生成するための一般的なフレームワークを提案する。本手法は,野生および珍しいクラスの画像に対して,優れた一般化能力を有する。
論文参考訳（メタデータ） (2023-03-10T01:48:14Z)
A Joint Framework Towards Class-aware and Class-agnostic Alignment for Few-shot Segmentation [11.47479526463185]
Few-shotのセグメンテーションは、いくつかの注釈付きサポートイメージが与えられた未確認クラスのオブジェクトをセグメントすることを目的としている。既存のほとんどのメソッドは、クエリ機能を独立したサポートプロトタイプで縫い付け、混合機能をデコーダに供給することでクエリイメージを分割する。セグメンテーションを容易にするために,より価値の高いクラス認識とクラス非依存アライメントガイダンスを組み合わせた共同フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-02T17:33:25Z)
Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文参考訳（メタデータ） (2022-01-15T19:49:00Z)
MFNet: Multi-class Few-shot Segmentation Network with Pixel-wise Metric Learning [34.059257121606336]
この研究は、まだほとんど探索されていない分野である少数ショットセマンティックセマンティックセグメンテーションに焦点を当てている。まず,マルチウェイ符号化とデコードアーキテクチャを提案する。このアーキテクチャは,マルチスケールクエリ情報とマルチクラスサポート情報を1つのクエリ支援埋め込みに効果的に融合する。標準ベンチマーク PASCAL-5i と COCO-20i による実験により, 数発のセグメンテーションにおいて, 本手法の利点が明らかに示された。
論文参考訳（メタデータ） (2021-10-30T11:37:36Z)
Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文参考訳（メタデータ） (2021-08-06T06:29:59Z)
Semantically Meaningful Class Prototype Learning for One-Shot Image Semantic Segmentation [58.96902899546075]
ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。エピソードトレーニングにおいて,マルチクラスラベル情報を活用することを提案する。ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。
論文参考訳（メタデータ） (2021-02-22T12:07:35Z)
Learning to Focus: Cascaded Feature Matching Network for Few-shot Image Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。 EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文参考訳（メタデータ） (2021-01-13T11:37:28Z)
Seed the Views: Hierarchical Semantic Alignment for Contrastive Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文参考訳（メタデータ） (2020-12-04T17:26:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。