Fugu-MT 論文翻訳(概要): Grouped Discrete Representation Guides Object-Centric Learning

論文の概要: Grouped Discrete Representation Guides Object-Centric Learning

arxiv url: http://arxiv.org/abs/2407.01726v2
Date: Wed, 02 Oct 2024 11:49:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 03:58:09.341429
Title: Grouped Discrete Representation Guides Object-Centric Learning
Title（参考訳）: Grouped Discrete Representation Guides Object-Centric Learning
Authors: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen,
Abstract要約: TransformerベースのObject-Centric Discrete Learningは、高密度の画像やテクスチャをスパースなオブジェクトレベルの特徴に抽象化することができる。特徴を属性にグループ化して数値でインデックス化することで,これらの問題に対処するためのtextitGrouped Representation (GDR) を提案する。
参考スコア（独自算出の注目度）: 18.44580501357929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Similar to humans perceiving visual scenes as objects, Object-Centric Learning (OCL) can abstract dense images or videos into sparse object-level features. Transformer-based OCL handles complex textures well due to the decoding guidance of discrete representation, obtained by discretizing noisy features in image or video feature maps using template features from a codebook. However, treating features as minimal units overlooks their composing attributes, thus impeding model generalization; indexing features with natural numbers loses attribute-level commonalities and characteristics, thus diminishing heuristics for model convergence. We propose \textit{Grouped Discrete Representation} (GDR) to address these issues by grouping features into attributes and indexing them with tuple numbers. In extensive experiments across different query initializations, dataset modalities, and model architectures, GDR consistently improves convergence and generalizability. Visualizations show that our method effectively captures attribute-level information in features. The source code will be available upon acceptance.
Abstract（参考訳）: 視覚的なシーンをオブジェクトとして認識する人間と同じように、OCL(Object-Centric Learning)は、密集した画像やビデオをスパースなオブジェクトレベルの特徴に抽象化することができる。トランスフォーマーベースのOCLは、コードブックのテンプレート機能を用いて、画像やビデオの特徴マップにおけるノイズのある特徴を識別して得られる離散表現の復号誘導のために、複雑なテクスチャをうまく処理する。しかし、特徴を最小単位として扱うことはそれらの構成属性を見落とし、従ってモデル一般化を妨げ、自然数を持つ指標的特徴は属性レベルの共通点や特徴を失い、モデル収束に対するヒューリスティックスは減少する。特徴を属性にグループ化してタプル数でインデックス化することで,これらの問題に対処するために, \textit{Grouped Discrete Representation} (GDR)を提案する。様々なクエリ初期化、データセットのモダリティ、モデルアーキテクチャにわたる広範な実験において、GDRは一貫して収束性と一般化性を改善している。可視化により,属性レベルの情報を特徴量で効果的に取得できることが分かる。ソースコードは受理時に利用可能になる。

関連論文リスト

LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文参考訳（メタデータ） (2024-12-18T15:28:08Z)
LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-30T05:49:42Z)
Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
我々は,オブジェクト指向学習のためのtextitGroup Discrete Representation (GDR) を提案する。 GDRは、組織化されたチャネルグルーピングを通じて特徴を属性に分解し、これらの属性をインデックスを介して個別の表現に構成する。
論文参考訳（メタデータ） (2024-11-04T17:25:10Z)
Organized Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
代表的手法は画素レベルの情報冗長性を抑え、オブジェクトレベルの特徴集約を誘導する。最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。
論文参考訳（メタデータ） (2024-09-05T14:13:05Z)
Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [49.919635694894204]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
論文参考訳（メタデータ） (2024-08-19T08:23:09Z)
Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文参考訳（メタデータ） (2023-11-21T08:20:38Z)
Attributes Grouping and Mining Hashing for Fine-Grained Image Retrieval [24.8065557159198]
微粒な画像検索のための属性グループとマイニングハッシュ(AGMH)を提案する。 AGMHはカテゴリ固有の視覚属性を複数の記述子にグループ化し、包括的特徴表現を生成する。 AGMHは、きめ細かいベンチマークデータセットの最先端メソッドに対して、一貫して最高のパフォーマンスを得る。
論文参考訳（メタデータ） (2023-11-10T14:01:56Z)
Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。 FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2023-08-21T12:59:48Z)
Hierarchical Visual Primitive Experts for Compositional Zero-Shot Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文参考訳（メタデータ） (2023-08-08T03:24:21Z)
Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文参考訳（メタデータ） (2023-01-23T15:52:12Z)
Learning Invariant Visual Representations for Compositional Zero-Shot Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。 2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-06-01T11:33:33Z)
Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文参考訳（メタデータ） (2021-12-23T14:32:51Z)
Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文参考訳（メタデータ） (2021-01-20T05:46:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。