論文の概要: Next state prediction gives rise to entangled, yet compositional representations of objects
- arxiv url: http://arxiv.org/abs/2410.04940v1
- Date: Mon, 7 Oct 2024 11:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:07:35.277093
- Title: Next state prediction gives rise to entangled, yet compositional representations of objects
- Title(参考訳): 次の状態予測は、オブジェクトの絡み合った、しかし構成的な表現を引き起こす
- Authors: Tankred Saanum, Luca M. Schulze Buschoff, Peter Dayan, Eric Schulz,
- Abstract要約: 分散表現を持つモデルは、下流予測タスクにおいて、オブジェクトスロットでモデルにマッチしたり、性能を上回ります。
分散モデルのオブジェクト表現は、たとえ線形分離可能であっても、完全に切り離されることはない。
- 参考スコア(独自算出の注目度): 10.75317321903845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional representations are thought to enable humans to generalize across combinatorially vast state spaces. Models with learnable object slots, which encode information about objects in separate latent codes, have shown promise for this type of generalization but rely on strong architectural priors. Models with distributed representations, on the other hand, use overlapping, potentially entangled neural codes, and their ability to support compositional generalization remains underexplored. In this paper we examine whether distributed models can develop linearly separable representations of objects, like slotted models, through unsupervised training on videos of object interactions. We show that, surprisingly, models with distributed representations often match or outperform models with object slots in downstream prediction tasks. Furthermore, we find that linearly separable object representations can emerge without object-centric priors, with auxiliary objectives like next-state prediction playing a key role. Finally, we observe that distributed models' object representations are never fully disentangled, even if they are linearly separable: Multiple objects can be encoded through partially overlapping neural populations while still being highly separable with a linear classifier. We hypothesize that maintaining partially shared codes enables distributed models to better compress object dynamics, potentially enhancing generalization.
- Abstract(参考訳): 構成表現は、人間が組み合わさった広大な状態空間をまたいで一般化できると考えられている。
学習可能なオブジェクトスロットを持つモデルは、別個の潜在コードでオブジェクトに関する情報を符号化し、この種の一般化を約束するが、強いアーキテクチャ上の前提に依存している。
一方、分散表現を持つモデルは重複し、潜在的に絡み合ったニューラルネットワークを使用し、構成一般化をサポートする能力はいまだ研究されていない。
本稿では,オブジェクト間相互作用のビデオの教師なしトレーニングを通じて,分散モデルが,スロット付きモデルのようなオブジェクトの線形分離可能な表現を開発できるかどうかを検討する。
意外なことに、分散表現を持つモデルは、下流の予測タスクにおいてオブジェクトスロットでモデルにマッチするか、より優れています。
さらに,次状態予測などの補助的目的が重要な役割を担っているため,対象中心の先行を伴わずに,線形分離可能なオブジェクト表現が出現することを発見した。
最後に、分散モデルのオブジェクト表現は、たとえ線形分離可能であっても、完全には絡み合っていないことを観察する: 線形分類器で高い分離性を維持しつつ、部分的に重なり合う神経集団を通して複数のオブジェクトを符号化することができる。
部分的に共有されたコードを維持することで、分散モデルによりオブジェクトの動的性をよりよく圧縮し、一般化を促進できるという仮説を立てる。
関連論文リスト
- Slot Structured World Models [0.0]
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。
Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
論文 参考訳(メタデータ) (2024-01-08T21:19:30Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - NeuForm: Adaptive Overfitting for Neural Shape Editing [67.16151288720677]
我々は,各形状領域に最も適した表現を適応的に使用することにより,過度に適合した表現と一般化可能な表現の両方の利点を組み合わせるために,NEUFORMを提案する。
椅子やテーブル,ランプなど,人間が設計した形状のパーツの再構成に成功した編集を実演する。
2つの最先端のコンペティタを比較し、その結果の妥当性と忠実さに関して、明確な改善を実証する。
論文 参考訳(メタデータ) (2022-07-18T19:00:14Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。
我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。
これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文 参考訳(メタデータ) (2021-11-24T16:10:46Z) - Generalization and Robustness Implications in Object-Centric Learning [23.021791024676986]
本稿では,5つの共通オブジェクトデータセット上で,最先端の教師なしモデルを訓練する。
実験結果から,ダウンストリームタスクに一般的に有用なオブジェクト中心表現が得られた。
論文 参考訳(メタデータ) (2021-07-01T17:51:11Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。