論文の概要: Adversarial Reconstruction Feedback for Robust Fine-grained Generalization
- arxiv url: http://arxiv.org/abs/2507.21742v1
- Date: Tue, 29 Jul 2025 12:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.247301
- Title: Adversarial Reconstruction Feedback for Robust Fine-grained Generalization
- Title(参考訳): ロバストファイングラニュラー化のための逆変換フィードバック
- Authors: Shijie Wang, Jian Shi, Haojie Li,
- Abstract要約: AdvRFは,カテゴリ非依存の差分表現を学習するための,新たな逆変換フィードバックフレームワークである。
FGIRは、検索モデルからカテゴリ認識の離散化を相乗化することにより、視覚的不一致再構築タスクとして再構成する。
広く使われているきめ細かいデータセットと粗いきめ細かなデータセットの両方で、素晴らしいパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 29.202222418152285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing fine-grained image retrieval (FGIR) methods predominantly rely on supervision from predefined categories to learn discriminative representations for retrieving fine-grained objects. However, they inadvertently introduce category-specific semantics into the retrieval representation, creating semantic dependencies on predefined classes that critically hinder generalization to unseen categories. To tackle this, we propose AdvRF, a novel adversarial reconstruction feedback framework aimed at learning category-agnostic discrepancy representations. Specifically, AdvRF reformulates FGIR as a visual discrepancy reconstruction task via synergizing category-aware discrepancy localization from retrieval models with category-agnostic feature learning from reconstruction models. The reconstruction model exposes residual discrepancies overlooked by the retrieval model, forcing it to improve localization accuracy, while the refined signals from the retrieval model guide the reconstruction model to improve its reconstruction ability. Consequently, the retrieval model localizes visual differences, while the reconstruction model encodes these differences into category-agnostic representations. This representation is then transferred to the retrieval model through knowledge distillation for efficient deployment. Quantitative and qualitative evaluations demonstrate that our AdvRF achieves impressive performance on both widely-used fine-grained and coarse-grained datasets.
- Abstract(参考訳): 既存のきめ細かい画像検索(FGIR)手法は、主に定義済みのカテゴリからの監督に依存して、きめ細かいオブジェクトを取得するための識別表現を学習する。
しかし、カテゴリ固有のセマンティクスを検索表現に不注意に導入し、定義済みのクラスに対するセマンティクスを作成することで、目に見えないカテゴリへの一般化を著しく妨げている。
そこで本研究では,カテゴリ非依存差分表現の学習を目的とした,新たな逆変換フィードバックフレームワークであるAdvRFを提案する。
特に、AdvRFは、検索モデルからのカテゴリー認識型特徴学習とカテゴリー認識型特徴学習とを相乗化することにより、FGIRを視覚的差分再構成タスクとして再構成する。
復元モデルは、検索モデルが見落としている残差を露呈し、局所化精度を向上させ、検索モデルからの洗練された信号は再構成モデルを誘導し、復元能力を向上させる。
その結果、検索モデルは視覚的差分をローカライズし、再構成モデルはこれらの差分をカテゴリーに依存しない表現に符号化する。
この表現は、効率的な展開のために知識蒸留を通して検索モデルに転送される。
定量的および定性的な評価により、我々のAdvRFは、広く使われているきめ細かいデータセットと粗いきめ細かなデータセットの両方において、印象的な性能を達成できることを示した。
関連論文リスト
- Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)は、ノイズ、ぼかし、圧縮、悪天候などの様々な要因によって劣化した入力から高品質な画像を復元することを目的としている。
従来のIR手法は、一般的に特定の種類の劣化に焦点を当てており、複雑な歪みを伴う現実世界のシナリオにおけるそれらの効果を制限している。
オールインワンのイメージ復元パラダイムが最近登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供している。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Recurrent Feedback Improves Recognition of Partially Occluded Objects [1.452875650827562]
人工ニューラルネットワークが再発の恩恵を受けるかどうかについて検討する。
競合パラメトリック複雑性のフィードフォワードモデルと比較して,繰り返しモデルでは分類精度が有意に高いことがわかった。
論文 参考訳(メタデータ) (2021-04-21T16:18:34Z) - Understanding invariance via feedforward inversion of discriminatively
trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。
極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。
私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文 参考訳(メタデータ) (2021-03-15T17:56:06Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。