論文の概要: Grounded Object Centric Learning
- arxiv url: http://arxiv.org/abs/2307.09437v2
- Date: Thu, 25 Jan 2024 15:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:15:36.150239
- Title: Grounded Object Centric Learning
- Title(参考訳): グラウンドド・オブジェクト・セントリック・ラーニング
- Authors: Avinash Kori, Francesco Locatello, Fabio De Sousa Ribeiro, Francesca
Toni, Ben Glocker
- Abstract要約: 本稿では,ベクトル量子化にインスパイアされたemphGrounded Slot Dictionary(GSD)という新しい概念を用いて,emphtextscConditional textscSlot textscAttention(textscCoSA)を提案する。
本稿では,シーン生成や構成,タスク適応など,複数の下流タスクにおいて,提案手法の利点を実証する。
- 参考スコア(独自算出の注目度): 46.091323528165205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The extraction of modular object-centric representations for downstream tasks
is an emerging area of research. Learning grounded representations of objects
that are guaranteed to be stable and invariant promises robust performance
across different tasks and environments. Slot Attention (SA) learns
object-centric representations by assigning objects to \textit{slots}, but
presupposes a \textit{single} distribution from which all slots are randomly
initialised. This results in an inability to learn \textit{specialized} slots
which bind to specific object types and remain invariant to identity-preserving
changes in object appearance. To address this, we present
\emph{\textsc{Co}nditional \textsc{S}lot \textsc{A}ttention} (\textsc{CoSA})
using a novel concept of \emph{Grounded Slot Dictionary} (GSD) inspired by
vector quantization. Our proposed GSD comprises (i) canonical object-level
property vectors and (ii) parametric Gaussian distributions, which define a
prior over the slots. We demonstrate the benefits of our method in multiple
downstream tasks such as scene generation, composition, and task adaptation,
whilst remaining competitive with SA in popular object discovery benchmarks.
- Abstract(参考訳): 下流タスクに対するモジュラーオブジェクト中心表現の抽出は、新たな研究分野である。
安定していることを保証するオブジェクトの基底表現を学習し、異なるタスクや環境にわたって堅牢なパフォーマンスを約束する。
slot attention (sa) はオブジェクトを \textit{slots} に割り当てることでオブジェクト中心の表現を学習するが、すべてのスロットがランダムに初期化される \textit{single} 分布を前提としている。
これにより、特定のオブジェクトタイプにバインドし、オブジェクトの外観におけるアイデンティティ保存変更に不変である \textit{specialized}スロットを学習できない。
これを解決するために、ベクトル量子化に着想を得た新しい概念である \emph{Grounded Slot Dictionary} (GSD) を用いて、 \emph{\textsc{Co}nditional \textsc{S}lot \textsc{A}ttention} (\textsc{CoSA}) を示す。
提案するGSDは
(i)標準のオブジェクトレベル特性ベクトル及び
(ii)パラメトリックガウス分布はスロット上の事前を定義する。
提案手法はシーン生成,コンポジション,タスク適応といった複数の下流タスクにおいて,一般的なオブジェクト発見ベンチマークではsaと競争力を維持しながら,そのメリットを実証する。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Few-shot Object Detection in Remote Sensing: Lifting the Curse of
Incompletely Annotated Novel Objects [23.171410277239534]
物体検出のための自己学習型FSOD (ST-FSOD) アプローチを提案する。
提案手法は,様々なFSOD設定における最先端性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2023-09-19T13:00:25Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Fine-Grained Object Classification via Self-Supervised Pose Alignment [42.55938966190932]
我々は,クラス間の自己教師型ポーズアライメントのための局所部分のグローバルな構成を明らかにするために,新しいグラフベースのオブジェクト表現を学習する。
提案手法を3つの評価対象分類ベンチマークで評価し,最先端性能を継続的に達成した。
論文 参考訳(メタデータ) (2022-03-30T01:46:19Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。