論文の概要: Bringing the Context Back into Object Recognition, Robustly
- arxiv url: http://arxiv.org/abs/2411.15933v2
- Date: Tue, 11 Mar 2025 12:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:11.791007
- Title: Bringing the Context Back into Object Recognition, Robustly
- Title(参考訳): コンテキストをオブジェクト認識に戻す
- Authors: Klara Janouskova, Cristian Gavrus, Jiri Matas,
- Abstract要約: ローカライズ・トゥ・認識ロバストリー (L2R2) は文脈認識分類の利点を生かした新しい認識手法である。
教師付きトレーニングによる標準認識と、VLMによるマルチモーダルゼロショット認識の両方の性能を向上させる。
その結果、幅広いデータセットに対して認識前のローカライゼーションが可能であることを確認した。
- 参考スコア(独自算出の注目度): 21.917582794820095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In object recognition, both the subject of interest (referred to as foreground, FG, for simplicity) and its surrounding context (background, BG) may play an important role. However, standard supervised learning often leads to unintended over-reliance on the BG, limiting model robustness in real-world deployment settings. The problem is mainly addressed by suppressing the BG, sacrificing context information for improved generalization. We propose "Localize to Recognize Robustly" (L2R2), a novel recognition approach which exploits the benefits of context-aware classification while maintaining robustness to distribution shifts. L2R2 leverages advances in zero-shot detection to localize the FG before recognition. It improves the performance of both standard recognition with supervised training, as well as multimodal zero-shot recognition with VLMs, while being robust to long-tail BGs and distribution shifts. The results confirm localization before recognition is possible for a wide range of datasets and they highlight the limits of object detection on others
- Abstract(参考訳): 対象認識においては、関心の対象(前景、FG、単純性)と周囲の文脈(背景、BG)の両方が重要な役割を果たす。
しかし、標準的な教師付き学習は、しばしばBGに対する意図しない過度な信頼を招き、実際のデプロイメント設定におけるモデルの堅牢性を制限する。
この問題は、主にBGを抑圧し、一般化を改善するためにコンテキスト情報を犠牲にすることで解決される。
分散シフトに対するロバスト性を維持しつつ,文脈認識型分類の利点を活用する新しい認識手法であるLocalize to Recognize Robustly (L2R2)を提案する。
L2R2はゼロショット検出の進歩を活用して認識前のFGをローカライズする。
教師付きトレーニングによる標準認識と、VLMによるマルチモーダルゼロショット認識の両方の性能を改善し、長い尾のBGや分散シフトに対して堅牢である。
その結果、広範囲のデータセットに対して認識前の局所化が可能であることを確認し、他者に対する物体検出の限界を強調した。
関連論文リスト
- DCA: Dividing and Conquering Amnesia in Incremental Object Detection [25.11059547936733]
本研究は,トランスフォーマーを用いたIODにおける局所化と認識の不均衡を忘れて発見する原因について考察する。
本稿では,トランスフォーマーをベースとしたIODを局所化認識プロセスに再設計するDCA戦略を提案する。
提案手法は,特に長期的段階的なシナリオにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-19T15:17:14Z) - RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - Eliminating Feature Ambiguity for Few-Shot Segmentation [95.9916573435427]
マイクロショットセグメンテーション(FSS)の最近の進歩は、クエリとサポート機能の間のピクセル間マッチングを利用してきた。
本稿では,既存のクロスアテンションベースのFSS手法に接続可能な,新しいアンビグニティ除去ネットワーク(AENet)を提案する。
論文 参考訳(メタデータ) (2024-07-13T10:33:03Z) - Fine-grained Background Representation for Weakly Supervised Semantic Segmentation [35.346567242839065]
本稿では,多様なBGセマンティクスを発見し,表現するために,FBR法を提案する。
そこで本研究では,FG陰性線を抽出し,地中コントラスト学習を効果的に行うためのアクティブサンプリング戦略を提案する。
本手法は,Pascal Voc および MS COCO テストセットにおいて,73.2 mIoU と 45.6 mIoU のセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2024-06-22T06:45:25Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Distillation-guided Representation Learning for Unconstrained Gait Recognition [50.0533243584942]
本研究では,屋外シナリオにおける人間認証のためのGADER(GAit Detection and Recognition)フレームワークを提案する。
GADERは、歩行情報を含むフレームのみを使用する新しい歩行認識手法により識別的特徴を構築する。
室内および屋外のデータセットに一貫した改善を示すため,複数の歩行ベースライン(SoTA)について評価を行った。
論文 参考訳(メタデータ) (2023-07-27T01:53:57Z) - Green Steganalyzer: A Green Learning Approach to Image Steganalysis [30.486433532000344]
Green Steganalyzer (GS)は、グリーンラーニングパラダイムに基づいた画像ステガナリシスの学習ソリューションである。
GSは3つのモジュールで構成されている: ピクセルベースの異常予測、2)埋め込み位置検出、3)画像レベルの検出のための決定融合である。
論文 参考訳(メタデータ) (2023-06-06T20:43:07Z) - Reliability-Hierarchical Memory Network for Scribble-Supervised Video
Object Segmentation [25.59883486325534]
本稿では,ビデオオブジェクトセグメンテーション(VOS)タスクをスクリブル教師方式で解決することを目的とする。
本稿では,高密度な結果を予測するためのモデル学習を容易にするために,スクリブル教師付き学習機構を提案する。
論文 参考訳(メタデータ) (2023-03-25T07:21:40Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - Learning Non-target Knowledge for Few-shot Semantic Segmentation [160.69431034807437]
本稿では,クエリ中のBG領域とDO領域を明示的にマイニングし,除去するための,NTRE(Non-Target Region Elimination)ネットワークという新しいフレームワークを提案する。
A BG Mining Module (BGMM) was proposed to extract the BG region through learning a general BG prototype。
クエリ機能からBGおよびDO情報を逐次フィルタリングするBG除去モジュールとDO除去モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-10T13:52:48Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。