論文の概要: HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2409.16136v1
- Date: Tue, 24 Sep 2024 14:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:27:07.059695
- Title: HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
- Title(参考訳): HA-FGOVD:開語彙オブジェクト検出のための明示的線形合成による微細属性のハイライト
- Authors: Yuqi Ma, Mengyin Liu, Chao Zhu, Xu-Cheng Yin,
- Abstract要約: そこで本研究では,その属性レベル検出能力を向上するフリーズメインストリームOVDモデルに対して,普遍的で明示的なアプローチを提案する。
提案手法は, 各種主流モデルの細粒度特性レベルOVDを均一に改善し, 新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.792370846774133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVD) models are considered to be Large Multi-modal Models (LMM), due to their extensive training data and a large number of parameters. Mainstream OVD models prioritize object coarse-grained category rather than focus on their fine-grained attributes, e.g., colors or materials, thus failed to identify objects specified with certain attributes. However, OVD models are pretrained on large-scale image-text pairs with rich attribute words, whose latent feature space can represent the global text feature as a linear composition of fine-grained attribute tokens without highlighting them. Therefore, we propose in this paper a universal and explicit approach for frozen mainstream OVD models that boosts their attribute-level detection capabilities by highlighting fine-grained attributes in explicit linear space. Firstly, a LLM is leveraged to highlight attribute words within the input text as a zero-shot prompted task. Secondly, by strategically adjusting the token masks, the text encoders of OVD models extract both global text and attribute-specific features, which are then explicitly composited as two vectors in linear space to form the new attribute-highlighted feature for detection tasks, where corresponding scalars are hand-crafted or learned to reweight both two vectors. Notably, these scalars can be seamlessly transferred among different OVD models, which proves that such an explicit linear composition is universal. Empirical evaluation on the FG-OVD dataset demonstrates that our proposed method uniformly improves fine-grained attribute-level OVD of various mainstream models and achieves new state-of-the-art performance.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出(OVD)モデルは、広範囲なトレーニングデータと多数のパラメータにより、LMM(Large Multi-modal Models)と見なされている。
主流のOVDモデルは、細粒度属性(例えば色や材料)にフォーカスするのではなく、粗粒度カテゴリを優先するので、特定の属性で指定されたオブジェクトを識別できなかった。
しかし、OVDモデルは、リッチ属性ワードを持つ大規模画像テキストペア上で事前訓練されており、その潜在特徴空間は、細粒度属性トークンの線形合成としてグローバルテキストの特徴を強調せずに表現することができる。
そこで本稿では, 線形空間における微粒な属性を強調表示することにより, 属性レベルの検出能力を向上する, フリーズメインストリームのOVDモデルに対する普遍的かつ明示的なアプローチを提案する。
まず、LLMを利用して、入力テキスト内の属性単語をゼロショットトリガータスクとしてハイライトする。
第二に、トークンマスクを戦略的に調整することにより、OVDモデルのテキストエンコーダは、大域的なテキストと属性固有の特徴の両方を抽出する。
特に、これらのスカラーは異なるOVDモデル間でシームレスに移動することができ、そのような明示的な線型合成が普遍的であることを証明している。
FG-OVDデータセットの実証評価により,提案手法は各種主流モデルの粒度特性レベルOVDを均一に改善し,新しい最先端性能を実現することを示す。
関連論文リスト
- The Representation and Recall of Interwoven Structured Knowledge in LLMs: A Geometric and Layered Analysis [0.0]
大規模言語モデル(LLM)はトランスフォーマー層にまたがる多関連属性を表現し、リコールする。
中間層は、重なり合う空間における関連属性を重畳することによって、事実知識を符号化する。
後の層は言語パターンを洗練し 属性表現を段階的に分離します
論文 参考訳(メタデータ) (2025-02-15T18:08:51Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - Grouped Discrete Representation Guides Object-Centric Learning [18.44580501357929]
TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。
特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
論文 参考訳(メタデータ) (2024-07-01T19:00:40Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Domain Adaptation for Large-Vocabulary Object Detectors [103.16365373806829]
本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-13T03:51:18Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Attribute-based Explanations of Non-Linear Embeddings of
High-Dimensional Data [2.397739143553337]
NoLiES(Non-linear Embeddings Surveyor)は、投影されたデータ(レンジセット)に対する新しい拡張戦略と、小さな多重環境でのインタラクティブな分析を組み合わせたものである。
Rangesetsはバイナリ属性値に対して,セットベースの視覚化アプローチを使用する。
論文 参考訳(メタデータ) (2021-07-28T12:09:29Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Attribute-based Regularization of Latent Spaces for Variational
Auto-Encoders [79.68916470119743]
本稿では,変分オートエンコーダ(VAE)の潜時空間を,連続値の異なる属性を明示的に符号化する新しい手法を提案する。
これは属性の正規化損失を使用して、属性値と属性が符号化される次元の潜在符号との単調な関係を強制する。
論文 参考訳(メタデータ) (2020-04-11T20:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。