Fugu-MT 論文翻訳(概要): DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines

論文の概要: DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines

arxiv url: http://arxiv.org/abs/2404.15771v1
Date: Wed, 24 Apr 2024 09:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:40:12.057830
Title: DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines
Title（参考訳）: DVF:検索ガイドラインによるロバスト化と高精度画像検索
Authors: Xin Jiang, Hao Tang, Rui Yan, Jinhui Tang, Zechao Li,
Abstract要約: 細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
参考スコア（独自算出の注目度）: 67.44394651662738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained image retrieval (FGIR) is to learn visual representations that distinguish visually similar objects while maintaining generalization. Existing methods propose to generate discriminative features, but rarely consider the particularity of the FGIR task itself. This paper presents a meticulous analysis leading to the proposal of practical guidelines to identify subcategory-specific discrepancies and generate discriminative features to design effective FGIR models. These guidelines include emphasizing the object (G1), highlighting subcategory-specific discrepancies (G2), and employing effective training strategy (G3). Following G1 and G2, we design a novel Dual Visual Filtering mechanism for the plain visual transformer, denoted as DVF, to capture subcategory-specific discrepancies. Specifically, the dual visual filtering mechanism comprises an object-oriented module and a semantic-oriented module. These components serve to magnify objects and identify discriminative regions, respectively. Following G3, we implement a discriminative model training strategy to improve the discriminability and generalization ability of DVF. Extensive analysis and ablation studies confirm the efficacy of our proposed guidelines. Without bells and whistles, the proposed DVF achieves state-of-the-art performance on three widely-used fine-grained datasets in closed-set and open-set settings.
Abstract（参考訳）: 細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。本稿では,FGIRモデルの設計において,サブカテゴリ固有の相違点を特定し,識別的特徴を生成するための実践的ガイドラインを提案する。これらのガイドラインには、オブジェクト(G1)の強調、サブカテゴリ固有の相違(G2)の強調、効果的なトレーニング戦略(G3)の活用が含まれる。 G1 と G2 に続いて,DVF と表記される平易な視覚変換器のための新しいデュアルビジュアルフィルタ機構を設計し,サブカテゴリ固有の相違を捉える。具体的には、二重視覚フィルタリング機構は、オブジェクト指向モジュールと意味指向モジュールとから構成される。これらのコンポーネントは、オブジェクトを拡大し、それぞれ識別可能な領域を特定するのに役立ちます。 G3の後、DVFの識別性と一般化能力を向上させるための識別モデルトレーニング戦略を実装した。総括分析およびアブレーション研究により,提案ガイドラインの有効性が確認された。ベルとホイッスルなしで、提案されたDVFは、クローズドセットとオープンセットの設定で、広く使われている3つのきめ細かいデータセットに対して最先端のパフォーマンスを達成する。

関連論文リスト

AlignCAT: Visual-Linguistic Alignment of Category and Attributefor Weakly Supervised Visual Grounding [51.74170851840497]
弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文参考訳（メタデータ） (2025-08-05T08:16:35Z)
HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。 HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文参考訳（メタデータ） (2025-07-28T15:09:52Z)
Fine-grained Image Retrieval via Dual-Vision Adaptation [32.27084080471636]
Fine-Grained Image Retrieval (FGIR)は、識別的視覚表現を学習し、類似した微細な特徴を持つ画像を検索する際の課題に直面している。本稿では,FGIRのFGIRモデルに対するDual-Vision Adaptation (DVA)アプローチを提案する。
論文参考訳（メタデータ） (2025-06-19T12:46:55Z)
One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文参考訳（メタデータ） (2025-03-03T03:50:54Z)
Feature Aligning Few shot Learning Method Using Local Descriptors Weighted Rules [0.0]
ラベル付きサンプルの限られた数を使用して、新しいカテゴリを識別することを含む分類はほとんどない。本稿では,局所記述子重み付きルール(FAFD-LDWR)を用いたFew-shot学習手法を提案する。ローカルディスクリプタの識別情報を可能な限り保存するために、クロスノーマライゼーション手法を少数ショット画像分類に革新的に導入し、サポートのキーローカルディスクリプタとクエリセットを整列させて、バックグラウンドノイズを除去することで分類性能を向上させる。
論文参考訳（メタデータ） (2024-08-26T11:36:38Z)
Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文参考訳（メタデータ） (2024-06-07T11:18:40Z)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。 DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。 DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:01:44Z)
HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文参考訳（メタデータ） (2024-01-18T04:23:21Z)
Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。各述語カテゴリを主題、対象、空間構成要素に分解する。異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文参考訳（メタデータ） (2023-05-21T14:40:48Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
Multi-View Active Fine-Grained Recognition [29.980409725777292]
細粒度視覚分類(FGVC)は数十年間開発されている。識別情報は、目に見えない地域だけでなく、他の目に見えない視点にも隠されている。アクティブなビュー選択による効率的な認識を実現するための政策段階に基づくフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-02T17:12:14Z)
R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction [21.11038841356125]
細粒度視覚分類(FGVC)は、クラス内の大きな多様性と微妙なクラス間差が主な課題である類似のサブカテゴリを識別することを目的としている。本稿では,FGVCに対する新たなアプローチを提案する。FGVCは,環境条件における部分的かつ十分な識別情報を同時に利用でき,また,対象物に対するクラストークンにおける冗長情報を圧縮することができる。
論文参考訳（メタデータ） (2022-04-21T13:35:38Z)
Explicitly Modeling the Discriminability for Instance-Aware Visual Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文参考訳（メタデータ） (2021-10-28T11:24:01Z)
Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文参考訳（メタデータ） (2021-06-07T09:03:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。