Fugu-MT 論文翻訳(概要): Semantically Enhanced Global Reasoning for Semantic Segmentation

論文の概要: Semantically Enhanced Global Reasoning for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2212.03338v1
Date: Tue, 6 Dec 2022 21:42:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 15:21:25.345529
Title: Semantically Enhanced Global Reasoning for Semantic Segmentation
Title（参考訳）: 意味的セグメンテーションのための意味的拡張グローバル推論
Authors: Mir Rayat Imtiaz Hossain, Leonid Sigal, James J. Little
Abstract要約: 画像特徴を潜在領域表現に投影し,グローバルな推論を行うことを学ぶ。結果として生じる意味的グローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、任意の意味的セグメンテーションフレームワークと組み合わせることができる。オブジェクトクラスとインスタンスレベルの両方で表現の意味を計測できる新しいメトリクスを提案する。
参考スコア（独自算出の注目度）: 37.64601713565947
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in pixel-level tasks (e.g., segmentation) illustrate the benefit of long-range interactions between aggregated region-based representations that can enhance local features. However, such pixel-to-region associations and the resulting representation, which often take the form of attention, cannot model the underlying semantic structure of the scene (e.g., individual objects and, by extension, their interactions). In this work, we take a step toward addressing this limitation. Specifically, we propose an architecture where we learn to project image features into latent region representations and perform global reasoning across them, using a transformer, to produce contextualized and scene-consistent representations that are then fused with original pixel-level features. Our design enables the latent regions to represent semantically meaningful concepts, by ensuring that activated regions are spatially disjoint and unions of such regions correspond to connected object segments. The resulting semantic global reasoning (SGR) is end-to-end trainable and can be combined with any semantic segmentation framework and backbone. Combining SGR with DeepLabV3 results in a semantic segmentation performance that is competitive to the state-of-the-art, while resulting in more semantically interpretable and diverse region representations, which we show can effectively transfer to detection and instance segmentation. Further, we propose a new metric that allows us to measure the semantics of representations at both the object class and instance level.
Abstract（参考訳）: ピクセルレベルのタスク(例えばセグメンテーション)の最近の進歩は、局所的な特徴を高めることができる集約された領域ベースの表現間の長距離相互作用の利点を示している。しかし、そのようなピクセルから地域への関連や、しばしば注意の形式をとる結果表現は、シーンの基本的な意味構造(例えば、個々のオブジェクトとそれらの相互作用)をモデル化することはできない。この作業では、この制限に対処するための一歩を踏み出します。具体的には,画像特徴を潜在領域表現に投影し,トランスフォーマを使用してグローバル推論を行い,文脈的かつシーン一貫性のある表現を生成し,元のピクセルレベル特徴と融合するアーキテクチャを提案する。我々の設計では、活性化領域が空間的に不整合であり、そのような領域の結合が連結対象セグメントに対応することを保証することにより、潜在領域が意味論的に意味のある概念を表現することができる。結果として生じるセマンティックグローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、セマンティックセグメンテーションフレームワークやバックボーンと組み合わせることができる。 SGRとDeepLabV3を組み合わせることで,最先端技術と競合するセマンティックセマンティックセマンティクスのパフォーマンスが向上すると同時に,よりセマンティクス的に解釈可能な多種多様なリージョン表現が実現され,検出やインスタンスセマンティクスへの効果的な転送が可能となった。さらに、オブジェクトクラスとインスタンスレベルで表現のセマンティクスを測定することができる新しいメトリックを提案する。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。 SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文参考訳（メタデータ） (2025-05-25T17:42:53Z)
AgMTR: Agent Mining Transformer for Few-shot Segmentation in Remote Sensing [12.91626624625134]
Few-shot (FSS) は、関心のあるオブジェクトを少数のラベル付きサンプル(つまりサポートイメージ)でクエリイメージに分割することを目的としている。以前のスキームでは、サポートクエリのピクセルペア間の類似性を利用して、ピクセルレベルのセマンティックな相関を構築していた。極端にクラス内変異や乱雑な背景を持つリモートセンシングシナリオでは、そのようなピクセルレベルの相関が大きなミスマッチを引き起こす可能性がある。本稿では,エージェントレベルの意味的相関を構築するために,一組の局所認識エージェントを適応的にマイニングする新しいエージェントマイニングトランス (AgMTR) を提案する。
論文参考訳（メタデータ） (2024-09-26T01:12:01Z)
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [5.476136494434766]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。オブジェクトレベルの表現を画像内および画像間の整合性で学習する。 COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文参考訳（メタデータ） (2024-03-03T11:24:16Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-05-26T17:00:23Z)
A Unified Architecture of Semantic Segmentation and Hierarchical Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文参考訳（メタデータ） (2021-12-08T22:06:31Z)
Robust 3D Scene Segmentation through Hierarchical and Learnable Part-Fusion [9.275156524109438]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、AR/VRといったいくつかのシーン理解アプリケーションのための基本的なビルディングブロックである。従来の手法では、階層的で反復的な手法を用いて意味や事例情報を融合するが、文脈融合における学習性は欠如している。本稿では,セグメンテーション・フュージョン(Seegment-Fusion)について述べる。
論文参考訳（メタデータ） (2021-11-16T13:14:47Z)
Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文参考訳（メタデータ） (2020-09-26T10:28:11Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。