論文の概要: IDRNet: Intervention-Driven Relation Network for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.10755v1
- Date: Mon, 16 Oct 2023 18:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:28:40.329697
- Title: IDRNet: Intervention-Driven Relation Network for Semantic Segmentation
- Title(参考訳): idrnet: 意味セグメンテーションのための介入駆動関係ネットワーク
- Authors: Zhenchao Jin, Xiaowei Hu, Lingting Zhu, Luchuan Song, Li Yuan and
Lequan Yu
- Abstract要約: 同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
- 参考スコア(独自算出の注目度): 34.09179171102469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-occurrent visual patterns suggest that pixel relation modeling facilitates
dense prediction tasks, which inspires the development of numerous context
modeling paradigms, \emph{e.g.}, multi-scale-driven and similarity-driven
context schemes. Despite the impressive results, these existing paradigms often
suffer from inadequate or ineffective contextual information aggregation due to
reliance on large amounts of predetermined priors. To alleviate the issues, we
propose a novel \textbf{I}ntervention-\textbf{D}riven \textbf{R}elation
\textbf{Net}work (\textbf{IDRNet}), which leverages a deletion diagnostics
procedure to guide the modeling of contextual relations among different pixels.
Specifically, we first group pixel-level representations into semantic-level
representations with the guidance of pseudo labels and further improve the
distinguishability of the grouped representations with a feature enhancement
module. Next, a deletion diagnostics procedure is conducted to model relations
of these semantic-level representations via perceiving the network outputs and
the extracted relations are utilized to guide the semantic-level
representations to interact with each other. Finally, the interacted
representations are utilized to augment original pixel-level representations
for final predictions. Extensive experiments are conducted to validate the
effectiveness of IDRNet quantitatively and qualitatively. Notably, our
intervention-driven context scheme brings consistent performance improvements
to state-of-the-art segmentation frameworks and achieves competitive results on
popular benchmark datasets, including ADE20K, COCO-Stuff, PASCAL-Context, LIP,
and Cityscapes. Code is available at
\url{https://github.com/SegmentationBLWX/sssegmentation}.
- Abstract(参考訳): 共発的な視覚的パターンは、ピクセル関係モデリングが密集した予測タスクを促進することを示唆し、多数のコンテキストモデリングパラダイム、例えば \emph{emph{e}, multi-scale-driven and similarity-driven context schemeの開発を刺激している。
印象的な結果にもかかわらず、これらの既存のパラダイムは、大量の予め決められた事前に依存するため、不適切な、あるいは効果的な文脈情報集約に悩まされることが多い。
この問題を軽減するために,異なる画素間のコンテキスト関係のモデリングを導くために,削除診断手順を利用する新しい \textbf{I}ntervention-\textbf{D}riven \textbf{R}elation \textbf{Net}work (\textbf{IDRNet}) を提案する。
具体的には、擬似ラベルの指導により、まずピクセルレベル表現を意味レベル表現にグループ化し、さらに特徴拡張モジュールを用いてグループ化表現の識別性を向上させる。
次に、ネットワーク出力を知覚することにより、これらの意味レベル表現の関係をモデル化するために削除診断手順を行い、抽出された関係を利用して、相互に相互作用する意味レベル表現を導く。
最後に、対話表現を用いて、最終的な予測のために元のピクセルレベル表現を増強する。
IDRNetの有効性を定量的に定性的に検証するための実験を行った。
特に、介入駆動のコンテキストスキームは、最先端セグメンテーションフレームワークに一貫したパフォーマンス改善をもたらし、ADE20K、COCO-Stuff、PASCAL-Context、LIP、Cityscapesといった一般的なベンチマークデータセットで競合する結果を得る。
コードは \url{https://github.com/SegmentationBLWX/ssegmentation} で入手できる。
関連論文リスト
- Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - SCG-Net: Self-Constructing Graph Neural Networks for Semantic
Segmentation [23.623276007011373]
本稿では,画像から直接長距離依存グラフを学習し,コンテキスト情報を効率的に伝達するモジュールを提案する。
モジュールは、新しい適応対角法と変分下界により最適化される。
ニューラルネットワーク(SCG-Net)に組み込まれると、セマンティックセグメンテーションがエンドツーエンドで行われ、競争性能が向上する。
論文 参考訳(メタデータ) (2020-09-03T12:13:09Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。