論文の概要: Grounded Object Centric Learning
- arxiv url: http://arxiv.org/abs/2307.09437v2
- Date: Thu, 25 Jan 2024 15:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-26 18:15:36.150239
- Title: Grounded Object Centric Learning
- Title(参考訳): グラウンドド・オブジェクト・セントリック・ラーニング
- Authors: Avinash Kori, Francesco Locatello, Fabio De Sousa Ribeiro, Francesca
Toni, Ben Glocker
- Abstract要約: 本稿では,ベクトル量子化にインスパイアされたemphGrounded Slot Dictionary(GSD)という新しい概念を用いて,emphtextscConditional textscSlot textscAttention(textscCoSA)を提案する。
本稿では,シーン生成や構成,タスク適応など,複数の下流タスクにおいて,提案手法の利点を実証する。
- 参考スコア(独自算出の注目度): 46.091323528165205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The extraction of modular object-centric representations for downstream tasks
is an emerging area of research. Learning grounded representations of objects
that are guaranteed to be stable and invariant promises robust performance
across different tasks and environments. Slot Attention (SA) learns
object-centric representations by assigning objects to \textit{slots}, but
presupposes a \textit{single} distribution from which all slots are randomly
initialised. This results in an inability to learn \textit{specialized} slots
which bind to specific object types and remain invariant to identity-preserving
changes in object appearance. To address this, we present
\emph{\textsc{Co}nditional \textsc{S}lot \textsc{A}ttention} (\textsc{CoSA})
using a novel concept of \emph{Grounded Slot Dictionary} (GSD) inspired by
vector quantization. Our proposed GSD comprises (i) canonical object-level
property vectors and (ii) parametric Gaussian distributions, which define a
prior over the slots. We demonstrate the benefits of our method in multiple
downstream tasks such as scene generation, composition, and task adaptation,
whilst remaining competitive with SA in popular object discovery benchmarks.
- Abstract(参考訳): 下流タスクに対するモジュラーオブジェクト中心表現の抽出は、新たな研究分野である。
安定していることを保証するオブジェクトの基底表現を学習し、異なるタスクや環境にわたって堅牢なパフォーマンスを約束する。
slot attention (sa) はオブジェクトを \textit{slots} に割り当てることでオブジェクト中心の表現を学習するが、すべてのスロットがランダムに初期化される \textit{single} 分布を前提としている。
これにより、特定のオブジェクトタイプにバインドし、オブジェクトの外観におけるアイデンティティ保存変更に不変である \textit{specialized}スロットを学習できない。
これを解決するために、ベクトル量子化に着想を得た新しい概念である \emph{Grounded Slot Dictionary} (GSD) を用いて、 \emph{\textsc{Co}nditional \textsc{S}lot \textsc{A}ttention} (\textsc{CoSA}) を示す。
提案するGSDは
(i)標準のオブジェクトレベル特性ベクトル及び
(ii)パラメトリックガウス分布はスロット上の事前を定義する。
提案手法はシーン生成,コンポジション,タスク適応といった複数の下流タスクにおいて,一般的なオブジェクト発見ベンチマークではsaと競争力を維持しながら,そのメリットを実証する。
関連論文リスト
- ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
本稿では,NSI(Neural Slot Interpreter)を提案する。
NSIはXMLに似たプログラミング言語で、単純な構文規則を使ってシーンのオブジェクトの意味をオブジェクト中心のプログラムプリミティブに整理する。
論文 参考訳(メタデータ) (2024-02-02T12:37:23Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning [0.46644955105516456]
ゼロショット学習(ZSL)分類は、トレーニングセットに含まれないクラス(ラベル)を分類または予測する(見えないクラス)。
近年の研究では、エンコーダが視覚的特徴空間をセマンティック空間に埋め込み、デコーダが元の視覚的特徴空間を再構成する、異なる意味的オートエンコーダ(SAE)モデルが提案されている。
本稿では,意味空間でベクトル化された視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。
論文 参考訳(メタデータ) (2023-06-26T12:06:20Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Fine-Grained Object Classification via Self-Supervised Pose Alignment [42.55938966190932]
我々は,クラス間の自己教師型ポーズアライメントのための局所部分のグローバルな構成を明らかにするために,新しいグラフベースのオブジェクト表現を学習する。
提案手法を3つの評価対象分類ベンチマークで評価し,最先端性能を継続的に達成した。
論文 参考訳(メタデータ) (2022-03-30T01:46:19Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。