論文の概要: HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2409.16136v1
- Date: Tue, 24 Sep 2024 14:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 05:27:07.059695
- Title: HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
- Title(参考訳): HA-FGOVD:開語彙オブジェクト検出のための明示的線形合成による微細属性のハイライト
- Authors: Yuqi Ma, Mengyin Liu, Chao Zhu, Xu-Cheng Yin,
- Abstract要約: そこで本研究では,その属性レベル検出能力を向上するフリーズメインストリームOVDモデルに対して,普遍的で明示的なアプローチを提案する。
提案手法は, 各種主流モデルの細粒度特性レベルOVDを均一に改善し, 新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.792370846774133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVD) models are considered to be Large Multi-modal Models (LMM), due to their extensive training data and a large number of parameters. Mainstream OVD models prioritize object coarse-grained category rather than focus on their fine-grained attributes, e.g., colors or materials, thus failed to identify objects specified with certain attributes. However, OVD models are pretrained on large-scale image-text pairs with rich attribute words, whose latent feature space can represent the global text feature as a linear composition of fine-grained attribute tokens without highlighting them. Therefore, we propose in this paper a universal and explicit approach for frozen mainstream OVD models that boosts their attribute-level detection capabilities by highlighting fine-grained attributes in explicit linear space. Firstly, a LLM is leveraged to highlight attribute words within the input text as a zero-shot prompted task. Secondly, by strategically adjusting the token masks, the text encoders of OVD models extract both global text and attribute-specific features, which are then explicitly composited as two vectors in linear space to form the new attribute-highlighted feature for detection tasks, where corresponding scalars are hand-crafted or learned to reweight both two vectors. Notably, these scalars can be seamlessly transferred among different OVD models, which proves that such an explicit linear composition is universal. Empirical evaluation on the FG-OVD dataset demonstrates that our proposed method uniformly improves fine-grained attribute-level OVD of various mainstream models and achieves new state-of-the-art performance.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出(OVD)モデルは、広範囲なトレーニングデータと多数のパラメータにより、LMM(Large Multi-modal Models)と見なされている。
主流のOVDモデルは、細粒度属性(例えば色や材料)にフォーカスするのではなく、粗粒度カテゴリを優先するので、特定の属性で指定されたオブジェクトを識別できなかった。
しかし、OVDモデルは、リッチ属性ワードを持つ大規模画像テキストペア上で事前訓練されており、その潜在特徴空間は、細粒度属性トークンの線形合成としてグローバルテキストの特徴を強調せずに表現することができる。
そこで本稿では, 線形空間における微粒な属性を強調表示することにより, 属性レベルの検出能力を向上する, フリーズメインストリームのOVDモデルに対する普遍的かつ明示的なアプローチを提案する。
まず、LLMを利用して、入力テキスト内の属性単語をゼロショットトリガータスクとしてハイライトする。
第二に、トークンマスクを戦略的に調整することにより、OVDモデルのテキストエンコーダは、大域的なテキストと属性固有の特徴の両方を抽出する。
特に、これらのスカラーは異なるOVDモデル間でシームレスに移動することができ、そのような明示的な線型合成が普遍的であることを証明している。
FG-OVDデータセットの実証評価により,提案手法は各種主流モデルの粒度特性レベルOVDを均一に改善し,新しい最先端性能を実現することを示す。
関連論文リスト
- Disentangling Linguistic Features with Dimension-Wise Analysis of Vector Embeddings [0.0]
本稿では,異なる言語特性(LP)を符号化したベクトル埋め込みの特定の次元を明らかにするための枠組みを提案する。
本稿では,同義語,否定語,時制,量などの10つの重要な言語的特徴を分離するLinguistically Distinct Sentence Pairsデータセットを紹介する。
このデータセットを用いて,様々な手法を用いてBERT埋め込みを分析し,各LPの最も影響力のある次元を同定する。
我々の研究結果は、否定や極性といった特定の性質が特定の次元で強固に符号化されている一方で、同義語のような他の性質はより複雑なパターンを示すことを示している。
論文 参考訳(メタデータ) (2025-04-20T23:38:16Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - The Representation and Recall of Interwoven Structured Knowledge in LLMs: A Geometric and Layered Analysis [0.0]
大規模言語モデル(LLM)はトランスフォーマー層にまたがる多関連属性を表現し、リコールする。
中間層は、重なり合う空間における関連属性を重畳することによって、事実知識を符号化する。
後の層は言語パターンを洗練し 属性表現を段階的に分離します
論文 参考訳(メタデータ) (2025-02-15T18:08:51Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.46562066023117]
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-08T08:36:12Z) - LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Grouped Discrete Representation Guides Object-Centric Learning [18.44580501357929]
TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。
特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
論文 参考訳(メタデータ) (2024-07-01T19:00:40Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Domain Adaptation for Large-Vocabulary Object Detectors [103.16365373806829]
本稿では,CLIPにおける暗黙的知識グラフ(KG)を利用した知識グラフ蒸留手法であるKGDについて述べる。
複数の広く採用されている検出ベンチマークに対する実験により、KGDは最先端技術よりも大きなマージンで一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-13T03:51:18Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Attribute-based Explanations of Non-Linear Embeddings of
High-Dimensional Data [2.397739143553337]
NoLiES(Non-linear Embeddings Surveyor)は、投影されたデータ(レンジセット)に対する新しい拡張戦略と、小さな多重環境でのインタラクティブな分析を組み合わせたものである。
Rangesetsはバイナリ属性値に対して,セットベースの視覚化アプローチを使用する。
論文 参考訳(メタデータ) (2021-07-28T12:09:29Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Attribute-based Regularization of Latent Spaces for Variational
Auto-Encoders [79.68916470119743]
本稿では,変分オートエンコーダ(VAE)の潜時空間を,連続値の異なる属性を明示的に符号化する新しい手法を提案する。
これは属性の正規化損失を使用して、属性値と属性が符号化される次元の潜在符号との単調な関係を強制する。
論文 参考訳(メタデータ) (2020-04-11T20:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。