論文の概要: Segment to Recognize Robustly -- Enhancing Recognition by Image Decomposition
- arxiv url: http://arxiv.org/abs/2411.15933v1
- Date: Sun, 24 Nov 2024 17:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.638436
- Title: Segment to Recognize Robustly -- Enhancing Recognition by Image Decomposition
- Title(参考訳): ランダムに認識するセグメント -- 画像分解による認識の強化
- Authors: Klara Janouskova, Cristian Gavrus, Jiri Matas,
- Abstract要約: S2R2(Segment to Recognize Robustly)は、FGとBGを分離し、それらをシンプルで堅牢で解釈可能な方法で結合する新しい認識手法である。
S2R2は、BGシフトに対する堅牢性を保ちながら、ドメイン内のデータに対する最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 21.917582794820095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In image recognition, both foreground (FG) and background (BG) play an important role; however, standard deep image recognition often leads to unintended over-reliance on the BG, limiting model robustness in real-world deployment settings. Current solutions mainly suppress the BG, sacrificing BG information for improved generalization. We propose "Segment to Recognize Robustly" (S2R^2), a novel recognition approach which decouples the FG and BG modelling and combines them in a simple, robust, and interpretable manner. S2R^2 leverages recent advances in zero-shot segmentation to isolate the FG and the BG before or during recognition. By combining FG and BG, potentially also with a standard full-image classifier, S2R^2 achieves state-of-the-art results on in-domain data while maintaining robustness to BG shifts. The results confirm that segmentation before recognition is now possible.
- Abstract(参考訳): 画像認識において、フォアグラウンド(FG)とバックグラウンド(BG)の両方が重要な役割を担っているが、標準的なディープイメージ認識は、BGに対する意図しない過度な依存を招き、実際の配置設定におけるモデルロバスト性を制限する。
現在の解はBGを主に抑制し、一般化を改善するためにBG情報を犠牲にする。
本稿では、FGとBGを分離し、それらをシンプルで頑健で解釈可能な方法で結合する新しい認識手法「S2R^2」を提案する。
S2R^2は、ゼロショットセグメンテーションの最近の進歩を利用して、認識の前後にFGとBGを分離する。
FGとBGを組み合わせることで、S2R^2は、BGシフトに対するロバスト性を維持しつつ、ドメイン内のデータに対する最先端の結果を達成することができる。
その結果,認識前のセグメンテーションが可能になった。
関連論文リスト
- DCA: Dividing and Conquering Amnesia in Incremental Object Detection [25.11059547936733]
本研究は,トランスフォーマーを用いたIODにおける局所化と認識の不均衡を忘れて発見する原因について考察する。
本稿では,トランスフォーマーをベースとしたIODを局所化認識プロセスに再設計するDCA戦略を提案する。
提案手法は,特に長期的段階的なシナリオにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-19T15:17:14Z) - RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - Eliminating Feature Ambiguity for Few-Shot Segmentation [95.9916573435427]
マイクロショットセグメンテーション(FSS)の最近の進歩は、クエリとサポート機能の間のピクセル間マッチングを利用してきた。
本稿では,既存のクロスアテンションベースのFSS手法に接続可能な,新しいアンビグニティ除去ネットワーク(AENet)を提案する。
論文 参考訳(メタデータ) (2024-07-13T10:33:03Z) - Fine-grained Background Representation for Weakly Supervised Semantic Segmentation [35.346567242839065]
本稿では,多様なBGセマンティクスを発見し,表現するために,FBR法を提案する。
そこで本研究では,FG陰性線を抽出し,地中コントラスト学習を効果的に行うためのアクティブサンプリング戦略を提案する。
本手法は,Pascal Voc および MS COCO テストセットにおいて,73.2 mIoU と 45.6 mIoU のセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2024-06-22T06:45:25Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Distillation-guided Representation Learning for Unconstrained Gait Recognition [50.0533243584942]
本研究では,屋外シナリオにおける人間認証のためのGADER(GAit Detection and Recognition)フレームワークを提案する。
GADERは、歩行情報を含むフレームのみを使用する新しい歩行認識手法により識別的特徴を構築する。
室内および屋外のデータセットに一貫した改善を示すため,複数の歩行ベースライン(SoTA)について評価を行った。
論文 参考訳(メタデータ) (2023-07-27T01:53:57Z) - Green Steganalyzer: A Green Learning Approach to Image Steganalysis [30.486433532000344]
Green Steganalyzer (GS)は、グリーンラーニングパラダイムに基づいた画像ステガナリシスの学習ソリューションである。
GSは3つのモジュールで構成されている: ピクセルベースの異常予測、2)埋め込み位置検出、3)画像レベルの検出のための決定融合である。
論文 参考訳(メタデータ) (2023-06-06T20:43:07Z) - Reliability-Hierarchical Memory Network for Scribble-Supervised Video
Object Segmentation [25.59883486325534]
本稿では,ビデオオブジェクトセグメンテーション(VOS)タスクをスクリブル教師方式で解決することを目的とする。
本稿では,高密度な結果を予測するためのモデル学習を容易にするために,スクリブル教師付き学習機構を提案する。
論文 参考訳(メタデータ) (2023-03-25T07:21:40Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - Learning Non-target Knowledge for Few-shot Semantic Segmentation [160.69431034807437]
本稿では,クエリ中のBG領域とDO領域を明示的にマイニングし,除去するための,NTRE(Non-Target Region Elimination)ネットワークという新しいフレームワークを提案する。
A BG Mining Module (BGMM) was proposed to extract the BG region through learning a general BG prototype。
クエリ機能からBGおよびDO情報を逐次フィルタリングするBG除去モジュールとDO除去モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-10T13:52:48Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。