論文の概要: DualGazeNet: A Biologically Inspired Dual-Gaze Query Network for Salient Object Detection
- arxiv url: http://arxiv.org/abs/2511.18865v1
- Date: Mon, 24 Nov 2025 08:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.099226
- Title: DualGazeNet: A Biologically Inspired Dual-Gaze Query Network for Salient Object Detection
- Title(参考訳): DualGazeNet: 生物学的にインスパイアされたDual-Gaze Query Network for Salient Object Detection
- Authors: Yu Zhang, Haoan Ping, Yuchen Li, Zhenshan Bing, Fuchun Sun, Alois Knoll,
- Abstract要約: 我々はDualGazeNetを紹介した。DualGazeNetは、純粋なトランスフォーマーフレームワークで、有能なオブジェクト検出を行う。
5つのRGBベンチマークの実験によると、DualGazeNetは25の最先端CNNとTransformerベースのメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 52.32976488996896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent salient object detection (SOD) methods aim to improve performance in four key directions: semantic enhancement, boundary refinement, auxiliary task supervision, and multi-modal fusion. In pursuit of continuous gains, these approaches have evolved toward increasingly sophisticated architectures with multi-stage pipelines, specialized fusion modules, edge-guided learning, and elaborate attention mechanisms. However, this complexity paradoxically introduces feature redundancy and cross-component interference that obscure salient cues, ultimately reaching performance bottlenecks. In contrast, human vision achieves efficient salient object identification without such architectural complexity. This contrast raises a fundamental question: can we design a biologically grounded yet architecturally simple SOD framework that dispenses with most of this engineering complexity, while achieving state-of-the-art accuracy, computational efficiency, and interpretability? In this work, we answer this question affirmatively by introducing DualGazeNet, a biologically inspired pure Transformer framework that models the dual biological principles of robust representation learning and magnocellular-parvocellular dual-pathway processing with cortical attention modulation in the human visual system. Extensive experiments on five RGB SOD benchmarks show that DualGazeNet consistently surpasses 25 state-of-the-art CNN- and Transformer-based methods. On average, DualGazeNet achieves about 60\% higher inference speed and 53.4\% fewer FLOPs than four Transformer-based baselines of similar capacity (VST++, MDSAM, Sam2unet, and BiRefNet). Moreover, DualGazeNet exhibits strong cross-domain generalization, achieving leading or highly competitive performance on camouflaged and underwater SOD benchmarks without relying on additional modalities.
- Abstract(参考訳): 近年のSOD法は,セマンティック・エンハンスメント,バウンダリ・リファインメント,アシスタント・タスク・インスペクション,マルチモーダル・フュージョンの4つの主要な方向における性能向上を目的としている。
継続的ゲインの追求において、これらのアプローチは、多段階パイプライン、特殊な融合モジュール、エッジ誘導学習、精巧な注意機構を備えた、より洗練されたアーキテクチャへと発展してきた。
しかし、この複雑さは、機能冗長性とクロスコンポーネントの干渉をパラドックス的に導入し、最終的にパフォーマンスのボトルネックに達する。
対照的に、人間の視覚は、そのようなアーキテクチャの複雑さを伴わずに効率的な健全な物体識別を実現する。
最先端の精度、計算効率、解釈可能性を実現しつつ、このエンジニアリングの複雑さの大部分を省く、生物学的に基盤を置きながら、アーキテクチャ的にシンプルなSODフレームワークを設計できるだろうか?
本研究では,人間の視覚系において,頑健な表現学習の2つの生物学的原理をモデル化し,脳皮質の注意を調節した巨細胞-パルボ細胞二重経路処理をモデル化する,生物学的にインスパイアされた純粋なトランスフォーマーフレームワークであるDualGazeNetを導入することにより,この疑問に肯定的に答える。
5つのRGB SODベンチマークの大規模な実験によると、DualGazeNetは25の最先端CNNおよびTransformerベースの手法を一貫して上回っている。
平均して、DualGazeNetは推論速度が60\%、FLOPが53.4\%、トランスフォーマーベースで同じ容量の4つのベースライン(VST++、MDSAM、Sam2unet、BiRefNet)より少ない。
さらに、DualGazeNetは強力なクロスドメインの一般化を示し、追加のモダリティに頼ることなく、カモフラージュおよび水中SODベンチマークでリードまたは高い競争性能を達成する。
関連論文リスト
- RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models [48.91205564876609]
軽量物体検出器の高効率化を目的とした,コスト効率・高適合性蒸留フレームワークを提案する。
当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現しています。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
論文 参考訳(メタデータ) (2025-10-29T08:13:17Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。