論文の概要: SelfReformer: Self-Refined Network with Transformer for Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2205.11283v1
- Date: Mon, 23 May 2022 13:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:54:40.172853
- Title: SelfReformer: Self-Refined Network with Transformer for Salient Object
Detection
- Title(参考訳): selfreformer: サルエント物体検出のためのトランスフォーマによる自己精製ネットワーク
- Authors: Yi Ke Yun, Weisi Lin
- Abstract要約: 既存の手法は、詳細で完全な予測を生成するのに依然として苦労している。
我々はTransformerベースのネットワークを開発し、グローバルコンテキスト情報を明示的に学習するブランチのための教師付きタスクをフレーム化した。
さらに,グローバルなコンテキストを融合し,予測における局所的な詳細を自動的に特定・洗練する2段階のContext Refinement Moduleを開発した。
- 参考スコア(独自算出の注目度): 46.72916268774309
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The global and local contexts significantly contribute to the integrity of
predictions in Salient Object Detection (SOD). Unfortunately, existing methods
still struggle to generate complete predictions with fine details. There are
two major problems in conventional approaches: first, for global context,
high-level CNN-based encoder features cannot effectively catch long-range
dependencies, resulting in incomplete predictions. Second, downsampling the
ground truth to fit the size of predictions will introduce inaccuracy as the
ground truth details are lost during interpolation or pooling. Thus, in this
work, we developed a Transformer-based network and framed a supervised task for
a branch to learn the global context information explicitly. Besides, we adopt
Pixel Shuffle from Super-Resolution (SR) to reshape the predictions back to the
size of ground truth instead of the reverse. Thus details in the ground truth
are untouched. In addition, we developed a two-stage Context Refinement Module
(CRM) to fuse global context and automatically locate and refine the local
details in the predictions. The proposed network can guide and correct itself
based on the global and local context generated, thus is named, Self-Refined
Transformer (SelfReformer). Extensive experiments and evaluation results on
five benchmark datasets demonstrate the outstanding performance of the network,
and we achieved the state-of-the-art.
- Abstract(参考訳): グローバルおよびローカルコンテキストは、SOD(Salient Object Detection)における予測の整合性に大きく寄与する。
残念ながら、既存の手法は詳細で完全な予測を生成するのに依然として苦労している。
まず、グローバルコンテキストでは、ハイレベルなcnnベースのエンコーダ機能は、長距離依存性を効果的にキャッチできないため、不完全な予測となる。
第二に、基底真理をサンプリングして予測のサイズに合わせると、補間やプール中に基底真理の詳細が失われるため、不正確性が生じる。
そこで本研究では,Transformerベースのネットワークを開発し,グローバルコンテキスト情報を明示的に学習するための教師付きタスクについて検討した。
さらに、超解法(SR)のPixel Shuffleを採用して、逆ではなく、地上の真実の大きさに戻す。
したがって、真相の詳細は触れられていない。
さらに,グローバルコンテキストを融合し,予測の局所的詳細を自動的に発見・洗練する2段階コンテキストリファインメントモジュール(crm)を開発した。
提案されたネットワークは、生成されたグローバルおよびローカルコンテキストに基づいて自身をガイドし、修正することができるので、自己精製トランスフォーマー(selfreformer)と呼ばれる。
5つのベンチマークデータセットの大規模な実験と評価結果から,ネットワークの優れた性能が示され,その成果が得られた。
関連論文リスト
- Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Navigating the Kaleidoscope of COVID-19 Misinformation Using Deep
Learning [0.76146285961466]
対象ドメインの局所的コンテキストとグローバル的コンテキストの両方をキャプチャする効果的なモデルを提案する。
i) 深層トランスフォーマーをベースとした事前学習モデルでは, 混合ドメイン変換学習が有効であり, 局所的な文脈を捉えるのが得意であり, 一般化が不十分である。
浅いネットワークベースのドメイン固有モデルと畳み込みニューラルネットワークの組み合わせは、階層的な方法でターゲットデータから局所的およびグローバル的コンテキストを直接抽出し、より一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2021-09-19T15:49:25Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Global Context Aware RCNN for Object Detection [1.1939762265857436]
我々はGCA (Global Context Aware) RCNNと呼ばれる新しいエンドツーエンドのトレーニング可能なフレームワークを提案する。
GCAフレームワークの中核となるコンポーネントは、グローバルな特徴ピラミッドとアテンション戦略の両方を特徴抽出と特徴改善に使用する、コンテキスト認識メカニズムである。
最後に,モデルの複雑さと計算負担をわずかに増加させる軽量バージョンを提案する。
論文 参考訳(メタデータ) (2020-12-04T14:56:46Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Cascaded Refinement Network for Point Cloud Completion with
Self-supervision [74.80746431691938]
形状整形のための2分岐ネットワークを提案する。
第1分枝は、完全なオブジェクトを合成するためのカスケード形状補完サブネットワークである。
第2のブランチは、元の部分入力を再構築する自動エンコーダである。
論文 参考訳(メタデータ) (2020-10-17T04:56:22Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。