論文の概要: Bringing the Context Back into Object Recognition, Robustly
- arxiv url: http://arxiv.org/abs/2411.15933v2
- Date: Tue, 11 Mar 2025 12:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:16:51.026610
- Title: Bringing the Context Back into Object Recognition, Robustly
- Title(参考訳): コンテキストをオブジェクト認識に戻す
- Authors: Klara Janouskova, Cristian Gavrus, Jiri Matas,
- Abstract要約: ローカライズ・トゥ・認識ロバストリー (L2R2) は文脈認識分類の利点を生かした新しい認識手法である。
教師付きトレーニングによる標準認識と、VLMによるマルチモーダルゼロショット認識の両方の性能を向上させる。
その結果、幅広いデータセットに対して認識前のローカライゼーションが可能であることを確認した。
- 参考スコア(独自算出の注目度): 21.917582794820095
- License:
- Abstract: In object recognition, both the subject of interest (referred to as foreground, FG, for simplicity) and its surrounding context (background, BG) may play an important role. However, standard supervised learning often leads to unintended over-reliance on the BG, limiting model robustness in real-world deployment settings. The problem is mainly addressed by suppressing the BG, sacrificing context information for improved generalization. We propose "Localize to Recognize Robustly" (L2R2), a novel recognition approach which exploits the benefits of context-aware classification while maintaining robustness to distribution shifts. L2R2 leverages advances in zero-shot detection to localize the FG before recognition. It improves the performance of both standard recognition with supervised training, as well as multimodal zero-shot recognition with VLMs, while being robust to long-tail BGs and distribution shifts. The results confirm localization before recognition is possible for a wide range of datasets and they highlight the limits of object detection on others
- Abstract(参考訳): 対象認識においては、関心の対象(前景、FG、単純性)と周囲の文脈(背景、BG)の両方が重要な役割を果たす。
しかし、標準的な教師付き学習は、しばしばBGに対する意図しない過度な信頼を招き、実際のデプロイメント設定におけるモデルの堅牢性を制限する。
この問題は、主にBGを抑圧し、一般化を改善するためにコンテキスト情報を犠牲にすることで解決される。
分散シフトに対するロバスト性を維持しつつ,文脈認識型分類の利点を活用する新しい認識手法であるLocalize to Recognize Robustly (L2R2)を提案する。
L2R2はゼロショット検出の進歩を活用して認識前のFGをローカライズする。
教師付きトレーニングによる標準認識と、VLMによるマルチモーダルゼロショット認識の両方の性能を改善し、長い尾のBGや分散シフトに対して堅牢である。
その結果、広範囲のデータセットに対して認識前の局所化が可能であることを確認し、他者に対する物体検出の限界を強調した。
関連論文リスト
- Dual-Space Augmented Intrinsic-LoRA for Wind Turbine Segmentation [13.258259022590266]
本稿では,画像レベルと潜時空間の両方を統合した新しい2次元空間拡張戦略を提案する。
提案手法は分割精度を大幅に向上させ,WTB画像分割における最先端手法を上回った。
論文 参考訳(メタデータ) (2024-12-30T10:06:02Z) - Eliminating Feature Ambiguity for Few-Shot Segmentation [95.9916573435427]
マイクロショットセグメンテーション(FSS)の最近の進歩は、クエリとサポート機能の間のピクセル間マッチングを利用してきた。
本稿では,既存のクロスアテンションベースのFSS手法に接続可能な,新しいアンビグニティ除去ネットワーク(AENet)を提案する。
論文 参考訳(メタデータ) (2024-07-13T10:33:03Z) - Fine-grained Background Representation for Weakly Supervised Semantic Segmentation [35.346567242839065]
本稿では,多様なBGセマンティクスを発見し,表現するために,FBR法を提案する。
そこで本研究では,FG陰性線を抽出し,地中コントラスト学習を効果的に行うためのアクティブサンプリング戦略を提案する。
本手法は,Pascal Voc および MS COCO テストセットにおいて,73.2 mIoU と 45.6 mIoU のセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2024-06-22T06:45:25Z) - Distillation-guided Representation Learning for Unconstrained Gait Recognition [50.0533243584942]
本研究では,屋外シナリオにおける人間認証のためのGADER(GAit Detection and Recognition)フレームワークを提案する。
GADERは、歩行情報を含むフレームのみを使用する新しい歩行認識手法により識別的特徴を構築する。
室内および屋外のデータセットに一貫した改善を示すため,複数の歩行ベースライン(SoTA)について評価を行った。
論文 参考訳(メタデータ) (2023-07-27T01:53:57Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - Learning Non-target Knowledge for Few-shot Semantic Segmentation [160.69431034807437]
本稿では,クエリ中のBG領域とDO領域を明示的にマイニングし,除去するための,NTRE(Non-Target Region Elimination)ネットワークという新しいフレームワークを提案する。
A BG Mining Module (BGMM) was proposed to extract the BG region through learning a general BG prototype。
クエリ機能からBGおよびDO情報を逐次フィルタリングするBG除去モジュールとDO除去モジュールを提案する。
論文 参考訳(メタデータ) (2022-05-10T13:52:48Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。