Fugu-MT 論文翻訳(概要): Multi-Content Interaction Network for Few-Shot Segmentation

論文の概要: Multi-Content Interaction Network for Few-Shot Segmentation

arxiv url: http://arxiv.org/abs/2303.06304v2
Date: Tue, 2 May 2023 15:45:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 17:06:41.118399
Title: Multi-Content Interaction Network for Few-Shot Segmentation
Title（参考訳）: 少数ショットセグメンテーションのためのマルチコンテンツインタラクションネットワーク
Authors: Hao Chen, Yunlong Yu, Yonghan Dong, Zheming Lu, Yingming Li, and Zhongfei Zhang
Abstract要約: Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。 MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
参考スコア（独自算出の注目度）: 37.80624074068096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-Shot Segmentation (FSS) is challenging for limited support images and large intra-class appearance discrepancies. Most existing approaches focus on extracting high-level representations of the same layers for support-query correlations, neglecting the shift issue between different layers and scales, due to the huge difference between support and query samples. In this paper, we propose a Multi-Content Interaction Network (MCINet) to remedy this issue by fully exploiting and interacting with the multi-scale contextual information contained in the support-query pairs to supplement the same-layer correlations. Specifically, MCINet improves FSS from the perspectives of boosting the query representations by incorporating the low-level structural information from another query branch into the high-level semantic features, enhancing the support-query correlations by exploiting both the same-layer and adjacent-layer features, and refining the predicted results by a multi-scale mask prediction strategy, with which the different scale contents have bidirectionally interacted. Experiments on two benchmarks demonstrate that our approach reaches SOTA performances and outperforms the best competitors with many desirable advantages, especially on the challenging COCO dataset.
Abstract（参考訳）: Few-Shot Segmentation (FSS) は,サポート画像の制限やクラス内外見の相違に難渋している。既存のアプローチのほとんどは、サポートとクエリのサンプルの間に大きな違いがあるため、サポートとクエリの相関のために同じレイヤの高レベルな表現を抽出することに焦点を当てている。本稿では,同層相関を補うために,サポートクエリペアに含まれるマルチスケールなコンテキスト情報を完全に活用し,対話することにより,この問題を解消するマルチコンテンツインタラクションネットワーク(mcinet)を提案する。特に、MCINetは、他のクエリブランチからの低レベル構造情報を高レベルなセマンティック特徴に組み込むことにより、クエリ表現を強化し、同一層と隣接層の両方の機能を活用してサポートクエリ相関を強化し、異なるスケールのコンテンツが双方向に相互作用するマルチスケールマスク予測戦略によって予測結果を改善することにより、FSSを改善する。 2つのベンチマークの実験は、我々のアプローチがSOTAのパフォーマンスに到達し、多くの望ましい利点、特に挑戦的なCOCOデータセットで最高の競争相手を上回ることを実証している。

関連論文リスト

Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文参考訳（メタデータ） (2026-01-16T10:09:39Z)
Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。 PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。 NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-12-29T14:16:21Z)
Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion [13.39263294343983]
本稿では,階層的セマンティックアライメントと協調補完(HSACC)に基づく,新しい不完全なマルチビュークラスタリングフレームワークを提案する。 HSACCはデュアルレベルのセマンティック空間設計により、堅牢なクロスビュー融合を実現する。実験の結果、HSACCは5つのベンチマークデータセットで最先端の手法を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-10-14T02:58:10Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシー=シュワルツの発散と相互情報を統合することで、分布型視覚言語アライメントを実現する新しいフレームワークを提案する。提案フレームワークでは,CSの分散と相互情報は多モーダルアライメントにおいて相補的な役割を担い,各モーダルのグローバル分布情報とペアのセマンティック関係の両方をキャプチャする。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。提案手法は計算効率が高く,効果的に解ける。
論文参考訳（メタデータ） (2024-11-12T09:57:53Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Few-shot Semantic Segmentation with Support-induced Graph Convolutional Network [28.46908214462594]
Few-shot semantic segmentation (FSS) は、いくつかの注釈付きサンプルで新しいオブジェクトのセグメンテーションを実現することを目的としている。本稿では,クエリ画像中の遅延コンテキスト構造を明示的に抽出するために,Support-induced Graph Convolutional Network (SiGCN)を提案する。
論文参考訳（メタデータ） (2023-01-09T08:00:01Z)
Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文参考訳（メタデータ） (2022-06-21T17:40:55Z)
Progressive Multi-scale Consistent Network for Multi-class Fundus Lesion Segmentation [28.58972084293778]
提案するプログレッシブ・フィーチャー・フュージョン(PFF)ブロックと動的アテンション・ブロック(DAB)を統合した,プログレッシブ・マルチスケール・一貫性ネットワーク(PMCNet)を提案する。 PFFブロックは、隣接するエンコーディング層からのマルチスケール機能を段階的に統合し、きめ細かい詳細と高レベルのセマンティクスを集約することで、各層の特徴学習を容易にする。 DABは、異なるスケールで融合した特徴から注意深い手がかりを動的に学習するように設計されているため、マルチスケール機能に存在する本質的な矛盾を円滑にすることを目的としている。
論文参考訳（メタデータ） (2022-05-31T12:10:01Z)
CATrans: Context and Affinity Transformer for Few-Shot Segmentation [36.802347383825705]
Few-shot segmentation (FSS) は、注釈付きサポート画像が不足している場合に、新しいカテゴリを分割することを目的としている。本研究では,提案するコンテキスト・アフィニティ変換器を用いて,コンテキスト・アフィニティ情報を効果的に統合する。提案手法の有効性を実証するために実験を行い,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-04-27T10:20:47Z)
CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文参考訳（メタデータ） (2020-11-10T04:28:11Z)
Learning to Combine: Knowledge Aggregation for Multi-Source Domain Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2020-07-17T07:52:44Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。