論文の概要: Revisiting Salient Object Detection from an Observer-Centric Perspective
- arxiv url: http://arxiv.org/abs/2602.06369v1
- Date: Fri, 06 Feb 2026 03:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.227253
- Title: Revisiting Salient Object Detection from an Observer-Centric Perspective
- Title(参考訳): オブザーバ・センターの視点からの高次物体検出の再検討
- Authors: Fuxi Zhang, Yifan Wang, Hengrun Zhao, Zhuohan Sun, Changxing Xia, Lijun Wang, Huchuan Lu, Yangrui Shao, Chen Yang, Long Teng,
- Abstract要約: そこで我々は,視覚的手がかりだけでなく,その嗜好や意図など,観察者固有の要因を考慮し,有意な領域を予測できるオブザーバ中心の有意物体検出(OC-SOD)を提案する。
結果として、この定式化は本質的なあいまいさと人間の知覚の多様性を捉え、パーソナライズされ、文脈に合ったサリエンシの予測を可能にする。
- 参考スコア(独自算出の注目度): 48.99721284788945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection is inherently a subjective problem, as observers with different priors may perceive different objects as salient. However, existing methods predominantly formulate it as an objective prediction task with a single groundtruth segmentation map for each image, which renders the problem under-determined and fundamentally ill-posed. To address this issue, we propose Observer-Centric Salient Object Detection (OC-SOD), where salient regions are predicted by considering not only the visual cues but also the observer-specific factors such as their preferences or intents. As a result, this formulation captures the intrinsic ambiguity and diversity of human perception, enabling personalized and context-aware saliency prediction. By leveraging multi-modal large language models, we develop an efficient data annotation pipeline and construct the first OC-SOD dataset named OC-SODBench, comprising 33k training, validation and test images with 152k textual prompts and object pairs. Built upon this new dataset, we further design OC-SODAgent, an agentic baseline which performs OC-SOD via a human-like "Perceive-Reflect-Adjust" process. Extensive experiments on our proposed OC-SODBench have justified the effectiveness of our contribution. Through this observer-centric perspective, we aim to bridge the gap between human perception and computational modeling, offering a more realistic and flexible understanding of what makes an object truly "salient." Code and dataset are publicly available at: https://github.com/Dustzx/OC_SOD
- Abstract(参考訳): 主観的対象検出は本質的に主観的問題であり、異なる先行性を持つ観察者は異なる対象を主観的であると知覚する。
しかし、既存の手法では、主に目的予測タスクとして、各画像に対して単一の基底分割マップを用いて定式化されており、不確定で根本的な誤りが生じる。
そこで本研究では,視覚的手がかりだけでなく,その嗜好や意図など,観察者固有の要因を考慮し,有意な領域を予測できるオブザーバ中心の有意物体検出(OC-SOD)を提案する。
結果として、この定式化は本質的なあいまいさと人間の知覚の多様性を捉え、パーソナライズされ、文脈に合ったサリエンシの予測を可能にする。
マルチモーダルな大言語モデルを活用することで,効率的なデータアノテーションパイプラインを構築し,OC-SODBenchと呼ばれる最初のOC-SODデータセットを構築し,33kのトレーニング,検証,152kのテキストプロンプトとオブジェクトペアによるテスト画像を含む。
この新たなデータセットに基づいて、人間のような「知覚-反射-調整」プロセスを介してOC-SODを実行するエージェントベースラインであるOC-SODAgentをさらに設計する。
提案したOC-SODBenchの大規模な実験により,提案手法の有効性が検証された。
このオブザーバー中心の視点を通じて、我々は人間の知覚と計算モデリングのギャップを埋めることを目指しており、オブジェクトを本当に「現実的」なものにするものについて、より現実的で柔軟な理解を提供する。
コードとデータセットは、https://github.com/Dustzx/OC_SODで公開されている。
関連論文リスト
- Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。
我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。
公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-12-22T03:25:43Z) - Correlation of Object Detection Performance with Visual Saliency and Depth Estimation [0.09208007322096533]
本稿では,物体検出精度と,深度予測と視覚塩分率予測の2つの基本的な視覚的課題の相関について検討する。
分析の結果,これらの相関は対象のカテゴリ間で有意な変化を示し,相関値がより小さいオブジェクトの最大3倍も大きいことが判明した。
これらの結果から, 物体検出アーキテクチャに視覚的サリエンシ機能を組み込むことは, 深度情報よりも有益であることが示唆された。
論文 参考訳(メタデータ) (2024-11-05T06:34:19Z) - Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Uncertainty-aware Joint Salient Object and Camouflaged Object Detection [43.01556978979627]
本論文では, 相反する情報を活用し, 対流物体検出と迷彩物体検出の両方の検出能力を高めるパラダイムを提案する。
この2つのタスクの矛盾する属性を明示的にモデル化する類似度測度モジュールを導入する。
両タスクのデータセットにおけるラベル付けの不確実性を考慮して,高次類似度測定とネットワーク信頼度推定を両立させる逆学習ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T16:05:10Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。