Fugu-MT 論文翻訳(概要): PAANet:Visual Perception based Four-stage Framework for Salient Object Detection using High-order Contrast Operator

論文の概要: PAANet:Visual Perception based Four-stage Framework for Salient Object Detection using High-order Contrast Operator

arxiv url: http://arxiv.org/abs/2211.08724v1
Date: Wed, 16 Nov 2022 07:28:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 16:26:28.669186
Title: PAANet:Visual Perception based Four-stage Framework for Salient Object Detection using High-order Contrast Operator
Title（参考訳）: paanet:高次コントラスト演算子を用いた物体検出のための視覚知覚に基づく4段階フレームワーク
Authors: Yanbo Yuan, Hua Zhong, Haixiong Li, Xiao cheng, Linmei Xia
Abstract要約: 本稿では,SOD(Salient Object Detection)のための4段階フレームワークを提案する。最初の2段階は、一般的な特徴抽出(GFE)と特徴前処理(FP)からなるtextbfPre-textbfAttentive Processと一致している。最終2段階は、満足度特徴抽出(SFE)と特徴集約(FA)を含むtextbfAttention プロセスに対応する。
参考スコア（独自算出の注目度）: 5.147934362641464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is believed that human vision system (HVS) consists of pre-attentive process and attention process when performing salient object detection (SOD). Based on this fact, we propose a four-stage framework for SOD, in which the first two stages match the \textbf{P}re-\textbf{A}ttentive process consisting of general feature extraction (GFE) and feature preprocessing (FP), and the last two stages are corresponding to \textbf{A}ttention process containing saliency feature extraction (SFE) and the feature aggregation (FA), namely \textbf{PAANet}. According to the pre-attentive process, the GFE stage applies the fully-trained backbone and needs no further finetuning for different datasets. This modification can greatly increase the training speed. The FP stage plays the role of finetuning but works more efficiently because of its simpler structure and fewer parameters. Moreover, in SFE stage we design for saliency feature extraction a novel contrast operator, which works more semantically in contrast with the traditional convolution operator when extracting the interactive information between the foreground and its surroundings. Interestingly, this contrast operator can be cascaded to form a deeper structure and extract higher-order saliency more effective for complex scene. Comparative experiments with the state-of-the-art methods on 5 datasets demonstrate the effectiveness of our framework.
Abstract（参考訳）: 人間の視覚システム (HVS) は, サリアント物体検出 (SOD) を行う際の注意プロセスと注意プロセスからなると考えられている。そこで本研究では,sodのための4段階のフレームワークを提案する。最初の2段階は一般特徴抽出 (gfe) と特徴前処理 (fp) からなる \textbf{p}re-\textbf{a}ttentive process と一致し,最後の2段階はsaliency feature extraction (sfe) を含む \textbf{a}ttention process (fa)、すなわち \textbf{paanet} に対応する。事前のプロセスによると、gfeステージはフルトレーニングされたバックボーンを適用し、異なるデータセットの微調整は不要である。この変更はトレーニング速度を大幅に向上させることができる。 FPステージは微調整の役割を果たすが、より単純な構造と少ないパラメータのためにより効率的に機能する。さらに, sfe 段階では, 前景と周辺との対話情報を抽出する際に, 従来の畳み込み演算子とは対照的に, より意味的に機能する新しいコントラスト演算子の設計を行う。興味深いことに、このコントラスト演算子はより深い構造を形成し、複雑なシーンをより効果的に高階の塩分を抽出するためにカスケードすることができる。 5つのデータセットの最先端手法との比較実験により,本フレームワークの有効性が示された。

関連論文リスト

VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation [18.680875997611025]
VP Labは、堅牢なセグメンテーションモデル開発のための視覚的プロンプトを強化する包括的な反復フレームワークである。 E-PEFTは、視覚的なプロンプトパイプラインを特定の領域に適応させるために設計されたパラメータ効率の良い微調整技法の新たなアンサンブルである。 E-PEFTと視覚的プロンプトを組み合わせることで、様々な技術データセット間でセマンティックセグメンテーションmIoUの性能が50%向上することを示す。
論文参考訳（メタデータ） (2025-05-21T14:46:57Z)
Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。 LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文参考訳（メタデータ） (2025-04-20T04:12:38Z)
Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。 P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文参考訳（メタデータ） (2025-04-07T08:53:14Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T16:06:59Z)
ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2024-03-19T14:45:17Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
CONTRASTE: Supervised Contrastive Pre-training With Aspect-based Prompts For Aspect Sentiment Triplet Extraction [13.077459544929598]
本稿では,ConTRastive Learning を用いた新しい事前学習戦略を提案する。また,ACOS,TASD,AESCなどの他のABSAタスクに対して提案手法の利点を示す。
論文参考訳（メタデータ） (2023-10-24T07:40:09Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
GaitStrip: Gait Recognition via Effective Strip-based Feature Representations and Multi-Level Framework [34.397404430838286]
本稿では,様々なレベルの歩行情報を抽出するために,GaitStripという名前のストリップベースマルチレベル歩行認識ネットワークを提案する。具体的には、私たちの高レベルブランチは歩行シーケンスのコンテキストを探求し、低レベルブランチは詳細な姿勢変化に焦点を当てています。我々のGaitStripは、通常の歩行条件と複雑な歩行条件の両方において最先端の性能を達成する。
論文参考訳（メタデータ） (2022-03-08T09:49:48Z)
Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文参考訳（メタデータ） (2022-02-21T15:30:14Z)
Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。 IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。 IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文参考訳（メタデータ） (2021-03-02T08:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。