論文の概要: ORDNet: Capturing Omni-Range Dependencies for Scene Parsing
- arxiv url: http://arxiv.org/abs/2101.03929v1
- Date: Mon, 11 Jan 2021 14:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:40:01.319144
- Title: ORDNet: Capturing Omni-Range Dependencies for Scene Parsing
- Title(参考訳): ORDNet: シーン解析のためのOmni-Range依存性のキャプチャ
- Authors: Shaofei Huang, Si Liu, Tianrui Hui, Jizhong Han, Bo Li, Jiashi Feng
and Shuicheng Yan
- Abstract要約: Omni-Range Dependencies Network(ORDNet)を構築し、短距離、中長距離の依存関係を効果的にキャプチャします。
我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。
- 参考スコア(独自算出の注目度): 135.11360962062957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to capture dependencies between spatial positions is essential to
many visual tasks, especially the dense labeling problems like scene parsing.
Existing methods can effectively capture long-range dependencies with
self-attention mechanism while short ones by local convolution. However, there
is still much gap between long-range and short-range dependencies, which
largely reduces the models' flexibility in application to diverse spatial
scales and relationships in complicated natural scene images. To fill such a
gap, we develop a Middle-Range (MR) branch to capture middle-range dependencies
by restricting self-attention into local patches. Also, we observe that the
spatial regions which have large correlations with others can be emphasized to
exploit long-range dependencies more accurately, and thus propose a Reweighed
Long-Range (RLR) branch. Based on the proposed MR and RLR branches, we build an
Omni-Range Dependencies Network (ORDNet) which can effectively capture short-,
middle- and long-range dependencies. Our ORDNet is able to extract more
comprehensive context information and well adapt to complex spatial variance in
scene images. Extensive experiments show that our proposed ORDNet outperforms
previous state-of-the-art methods on three scene parsing benchmarks including
PASCAL Context, COCO Stuff and ADE20K, demonstrating the superiority of
capturing omni-range dependencies in deep models for scene parsing task.
- Abstract(参考訳): 空間的位置間の依存関係をキャプチャする学習は多くの視覚的タスク、特にシーン解析のような濃密なラベル付け問題に不可欠である。
既存のメソッドは、ローカル畳み込みによって短時間で、セルフアテンション機構で、長距離依存性を効果的にキャプチャできる。
しかし、長距離と短距離の依存関係の間には大きなギャップがあるため、複雑な自然風景画像における多様な空間スケールと関係性へのモデルの柔軟性が大幅に低下する。
このようなギャップを埋めるために,中間範囲(mr)ブランチを開発し,局所パッチへの自己アテンションを制限し,中間範囲依存性をキャプチャする。
また,他者と大きな相関関係を持つ空間領域を,より正確に長距離依存性を活用できるように強調し,改良型長距離(rlr)ブランチを提案する。
Omni-Range Dependencies Network (ORDNet) は,提案したMRとRLRのブランチに基づいて,短距離,中距離,長距離の依存関係を効果的に捉えることができる。
我々のORDNetは、より包括的なコンテキスト情報を抽出し、シーンイメージの複雑な空間分散に順応することができる。
ORDNetはPASCAL Context, COCO Stuff, ADE20Kといった3つのシーン解析のベンチマークにおいて, 従来の最先端手法よりも優れており, シーン解析タスクの深層モデルにおけるオムニレンジ依存性の捕捉が優れていることを示す。
関連論文リスト
- CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model [12.461378793357705]
マルチエージェント協調認識は環境のより深い理解を促進する。
協調知覚の最近の研究は、主にCNNやトランスフォーマーを用いて空間次元における特徴表現と融合を学習している。
資源効率の良い時間空間協調状態空間モデルCollaMambaを提案する。
論文 参考訳(メタデータ) (2024-09-12T02:50:04Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Lightweight Long-Range Generative Adversarial Networks [58.16484259508973]
本稿では、画像生成プロセスにおける長距離依存性を効果的にキャプチャできる、新しい軽量な生成対向ネットワークを提案する。
提案した長距離モジュールは、トレーニングを安定させる正規化として機能し、画素間の負の関係を強調することができる。
我々の新しいロングレンジモジュールは、いくつかの追加パラメータしか導入せず、既存のモデルに簡単に挿入して、ロングレンジの依存関係をキャプチャする。
論文 参考訳(メタデータ) (2022-09-08T13:05:01Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - LSTA-Net: Long short-term Spatio-Temporal Aggregation Network for
Skeleton-based Action Recognition [14.078419675904446]
LSTA-Net(英語版) - 新しい短期時空間ネットワーク。
時間的・短期的な情報は、既存の作品ではよく調べられていない。
3つの公開ベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-11-01T10:53:35Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。