論文の概要: UniDGF: A Unified Detection-to-Generation Framework for Hierarchical Object Visual Recognition
- arxiv url: http://arxiv.org/abs/2511.15984v1
- Date: Thu, 20 Nov 2025 02:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.432994
- Title: UniDGF: A Unified Detection-to-Generation Framework for Hierarchical Object Visual Recognition
- Title(参考訳): UniDGF:階層的物体認識のための統合検出生成フレームワーク
- Authors: Xinyu Nan, Lingtao Mao, Huangyu Dai, Zexin Zheng, Xinyu Sun, Zihan Liang, Ben Chen, Yuqing Ding, Chenyi Lei, Wenwu Ou, Han Li,
- Abstract要約: 本稿では,階層的カテゴリと属性トークンを予測可能な検出誘導型生成フレームワークを提案する。
検出対象ごとに、精細なROIレベルの特徴を抽出し、BARTベースのジェネレータを用いて意味トークンを生成する。
大規模なプロプライエタリなeコマースデータセットとオープンソースデータセットの両方の実験は、我々のアプローチが既存の類似性ベースのパイプラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 14.256812146187565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving visual semantic understanding requires a unified framework that simultaneously handles object detection, category prediction, and attribute recognition. However, current advanced approaches rely on global similarity and struggle to capture fine-grained category distinctions and category-specific attribute diversity, especially in large-scale e-commerce scenarios. To overcome these challenges, we introduce a detection-guided generative framework that predicts hierarchical category and attribute tokens. For each detected object, we extract refined ROI-level features and employ a BART-based generator to produce semantic tokens in a coarse-to-fine sequence covering category hierarchies and property-value pairs, with support for property-conditioned attribute recognition. Experiments on both large-scale proprietary e-commerce datasets and open-source datasets demonstrate that our approach significantly outperforms existing similarity-based pipelines and multi-stage classification systems, achieving stronger fine-grained recognition and more coherent unified inference.
- Abstract(参考訳): 視覚的意味理解を実現するには、オブジェクト検出、カテゴリ予測、属性認識を同時に扱う統合フレームワークが必要である。
しかし、現在の先進的なアプローチはグローバルな類似性に依存しており、特に大規模なeコマースシナリオにおいて、細かなカテゴリーの区別とカテゴリー固有の属性の多様性を捉えるのに苦労している。
これらの課題を克服するために,階層的カテゴリと属性トークンを予測する検出誘導型生成フレームワークを導入する。
検出対象のそれぞれに対して、改良されたROIレベルの特徴を抽出し、BARTベースのジェネレータを使用して、カテゴリ階層とプロパティ値ペアをカバーする粗いシーケンスで意味トークンを生成し、プロパティ条件付き属性認識をサポートする。
大規模プロプライエタリなeコマースデータセットとオープンソースデータセットの両方の実験により、我々のアプローチが既存の類似性ベースのパイプラインとマルチステージ分類システムを大幅に上回っており、よりきめ細かい認識とより一貫性のある統一推論を実現していることが示された。
関連論文リスト
- A Semantics-Aware Hierarchical Self-Supervised Approach to Classification of Remote Sensing Images [12.282079123411947]
本稿では,階層的特徴と関係を学習するためのセマンティックス・アウェア・ヒエラルキー・コンセンサス(SAHC)手法を提案する。
SAHC法は、階層的な複雑さの異なる3つのベンチマークデータセットで評価される。
実験により,ネットワーク学習の指導における提案手法の有効性と,リモートセンシング画像分類タスクにおける階層的コンセンサスの有効性が示された。
論文 参考訳(メタデータ) (2025-10-06T15:30:39Z) - Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction [36.73147151458588]
人間の認知プロセスにインスパイアされた、新しい物体理解のためのソリューションを提案する。
提案するConGCDは,高レベルなセマンティック再構築により,プリミティブ指向の表現を確立する。
我々は、クラス識別パターンをキャプチャするために、支配的かつ文脈的コンセンサスユニットを実装している。
論文 参考訳(メタデータ) (2025-08-14T15:11:22Z) - Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Attributes Grouping and Mining Hashing for Fine-Grained Image Retrieval [24.8065557159198]
微粒な画像検索のための属性グループとマイニングハッシュ(AGMH)を提案する。
AGMHはカテゴリ固有の視覚属性を複数の記述子にグループ化し、包括的特徴表現を生成する。
AGMHは、きめ細かいベンチマークデータセットの最先端メソッドに対して、一貫して最高のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-11-10T14:01:56Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。