論文の概要: Holi-DETR: Holistic Fashion Item Detection Leveraging Contextual Information
- arxiv url: http://arxiv.org/abs/2512.23221v1
- Date: Mon, 29 Dec 2025 05:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.415921
- Title: Holi-DETR: Holistic Fashion Item Detection Leveraging Contextual Information
- Title(参考訳): Holi-DETR:文脈情報を活用したホロスティックファッション項目検出
- Authors: Youngchae Kwon, Jinyoung Choi, Injung Kim,
- Abstract要約: 衣料品画像のファッションアイテムを均等に検出するホロスティック検出変換器(Holi-DETR)を提案する。
Holi-DETRは3種類のコンテキスト情報を活用することで曖昧さを低減しつつ複数の項目を検出する。
実験では,バニラDETRと最近開発されたCo-DETRの性能をそれぞれ3.6%(pp)と1.1ppに改善した。
- 参考スコア(独自算出の注目度): 7.386027762996787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion item detection is challenging due to the ambiguities introduced by the highly diverse appearances of fashion items and the similarities among item subcategories. To address this challenge, we propose a novel Holistic Detection Transformer (Holi-DETR) that detects fashion items in outfit images holistically, by leveraging contextual information. Fashion items often have meaningful relationships as they are combined to create specific styles. Unlike conventional detectors that detect each item independently, Holi-DETR detects multiple items while reducing ambiguities by leveraging three distinct types of contextual information: (1) the co-occurrence relationship between fashion items, (2) the relative position and size based on inter-item spatial arrangements, and (3) the spatial relationships between items and human body key-points. %Holi-DETR explicitly incorporates three types of contextual information: (1) the co-occurrence probability between fashion items, (2) the relative position and size based on inter-item spatial arrangements, and (3) the spatial relationships between items and human body key-points. To this end, we propose a novel architecture that integrates these three types of heterogeneous contextual information into the Detection Transformer (DETR) and its subsequent models. In experiments, the proposed methods improved the performance of the vanilla DETR and the more recently developed Co-DETR by 3.6 percent points (pp) and 1.1 pp, respectively, in terms of average precision (AP).
- Abstract(参考訳): ファッションアイテムの出現の多様さとサブカテゴリ間の類似性から,ファッションアイテムの検出は困難である。
この課題に対処するために,コンテクスト情報を活用することで,衣料品のファッションアイテムを直感的に検出するHoli-DETR(Holi-DETR)を提案する。
ファッションアイテムは、特定のスタイルを作るために組み合わせられるため、意味のある関係を持つことが多い。
各項目を別々に検出する従来の検出器とは異なり,ホリ-DETRは,(1)ファッションアイテム間の共起関係,(2)アイコン間の空間配置に基づく相対的位置とサイズ,(3)アイテムと人体キーポイント間の空間的関係の3つの異なる種類のコンテキスト情報を活用することにより,曖昧さを低減しつつ,複数の項目を検出する。
%Holi-DETRでは,(1)ファッションアイテム間の共起確率,(2)イテム間空間配置に基づく相対的位置とサイズ,(3)アイテムと人体キーポイント間の空間的関係,という3種類のコンテキスト情報を明示的に取り入れている。
そこで本研究では,これら3種類の異種コンテキスト情報を検出変換器(DETR)とその後続モデルに統合するアーキテクチャを提案する。
実験では,バニラDETRと最近開発されたCo-DETRを平均精度(AP)でそれぞれ3.6%(pp)と1.1ppに改善した。
関連論文リスト
- DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文 参考訳(メタデータ) (2025-05-26T18:55:14Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.493213289990962]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - OW-DETR: Open-world Detection Transformer [90.56239673123804]
オープンワールドオブジェクト検出のための新しいエンドツーエンドトランスフォーマーベースのフレームワークOW-DETRを提案する。
OW-DETRは3つの専用コンポーネント、すなわち注目駆動の擬似ラベル、新規性分類、オブジェクトネススコアから構成される。
我々のモデルは、最近導入されたOWODアプローチであるOREよりも優れており、リコールの度合いは1.8%から3.3%である。
論文 参考訳(メタデータ) (2021-12-02T18:58:30Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - Where to Look and How to Describe: Fashion Image Retrieval with an
Attentional Heterogeneous Bilinear Network [50.19558726384559]
画像に基づくファッション商品検索のための生物学的にインスパイアされたフレームワークを提案する。
提案フレームワークは,3つの画像に基づくファッション製品検索ベンチマークにおいて,満足な性能を実現する。
論文 参考訳(メタデータ) (2020-10-26T06:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。