論文の概要: Are Object-Centric Representations Better At Compositional Generalization?
- arxiv url: http://arxiv.org/abs/2602.16689v1
- Date: Wed, 18 Feb 2026 18:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.684391
- Title: Are Object-Centric Representations Better At Compositional Generalization?
- Title(参考訳): オブジェクト中心表現は構成的一般化においてより良いか?
- Authors: Ferdinand Kapl, Amir Mohammad Karimi Mamaghan, Maximilian Seitzer, Karl Henrik Johansson, Carsten Marr, Stefan Bauer, Andrea Dittadi,
- Abstract要約: 我々は、視覚エンコーダがオブジェクト特性の見当たらない組み合わせにどのように一般化するかを測定するためのベンチマークを導入する。
オブジェクト中心の表現は、データセットサイズ、トレーニングデータ多様性、ダウンストリーム計算のどれかが制約された場合、より強力な構成一般化を提供することを示す。
- 参考スコア(独自算出の注目度): 46.75426004888414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization, the ability to reason about novel combinations of familiar concepts, is fundamental to human cognition and a critical challenge for machine learning. Object-centric (OC) representations, which encode a scene as a set of objects, are often argued to support such generalization, but systematic evidence in visually rich settings is limited. We introduce a Visual Question Answering benchmark across three controlled visual worlds (CLEVRTex, Super-CLEVR, and MOVi-C) to measure how well vision encoders, with and without object-centric biases, generalize to unseen combinations of object properties. To ensure a fair and comprehensive comparison, we carefully account for training data diversity, sample size, representation size, downstream model capacity, and compute. We use DINOv2 and SigLIP2, two widely used vision encoders, as the foundation models and their OC counterparts. Our key findings reveal that (1) OC approaches are superior in harder compositional generalization settings; (2) original dense representations surpass OC only on easier settings and typically require substantially more downstream compute; and (3) OC models are more sample efficient, achieving stronger generalization with fewer images, whereas dense encoders catch up or surpass them only with sufficient data and diversity. Overall, object-centric representations offer stronger compositional generalization when any one of dataset size, training data diversity, or downstream compute is constrained.
- Abstract(参考訳): 作曲の一般化は、慣れ親しんだ概念の新たな組み合わせを推論する能力であり、人間の認識の基本であり、機械学習にとって重要な課題である。
シーンをオブジェクトの集合としてエンコードするオブジェクト指向(OC)表現は、そのような一般化を支持するとしばしば主張されるが、視覚的にリッチな設定における体系的な証拠は限られている。
我々は,3つの制御された視覚世界(CLEVRTex, Super-CLEVR, MOVi-C)にまたがるビジュアル質問応答ベンチマークを導入し,オブジェクト中心の偏りの有無にかかわらず,視覚エンコーダの精度を計測し,オブジェクト特性の見当たらない組み合わせに一般化する。
公平かつ包括的な比較を確保するため、トレーニングデータの多様性、サンプルサイズ、表現サイズ、下流モデル容量、計算を慎重に考慮する。
DINOv2とSigLIP2は、2つの広く使われている視覚エンコーダであり、基礎モデルとそれらのOCに対応している。
その結果,(1)より複雑な構成の一般化設定ではOCのアプローチが優れていること,(2)より簡単な設定でのみOCを上回り,典型的にはよりダウンストリームの計算を必要とすること,(3)OCモデルはよりサンプリング効率が高く,少ない画像でより強力な一般化を実現する一方で,高密度エンコーダは十分なデータと多様性でのみそれらをキャッチアップまたはオーバーすることがわかった。
全体として、オブジェクト中心の表現は、データセットのサイズ、データの多様性のトレーニング、あるいは下流の計算に制約がある場合、より強力な構成の一般化を提供する。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval [76.86914849263168]
オープンセット3Dオブジェクト検索は、トレーニングセットを超えて、目に見えないカテゴリの3Dオブジェクトを検索することを目的とした、新たなタスクである。
既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。
Describe, Adapt and Combine (DAC) というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T04:11:05Z) - Does Data Scaling Lead to Visual Compositional Generalization? [21.242714408660508]
構成一般化は単なるデータスケールではなく,データの多様性によってもたらされる。
この構造が効率の鍵であることを証明し、ほとんど観測されていない組み合わせから完全な一般化を可能にする。
論文 参考訳(メタデータ) (2025-07-09T17:59:03Z) - Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space [17.603217168518356]
本稿では,2次元画像を3次元空間に引き上げ,大規模かつ多様な単一視点画像のフル活用を目的とした,新しい2段階のフレームワークを提案する。
第1段階では,多視点画像合成と3次元特徴ガウス表現を組み合わせた3次元特徴エンコーダを学習する。
第2段階では、単一視点画像からの大規模な合成データ生成と組み合わせて、特徴デコーダの学習を行う。
論文 参考訳(メタデータ) (2025-07-01T03:07:21Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - TCGF: A unified tensorized consensus graph framework for multi-view
representation learning [27.23929515170454]
本稿では,Consensus Graph Framework (TCGF) という汎用多視点表現学習フレームワークを提案する。
まず、個々のビューの表現を利用するために、既存のマルチビューワークに統一されたフレームワークを提供する。
そして、それらを高次表現としてアライメント基本の下でテンソルに積み上げ、一貫性の滑らかな伝播を可能にする。
論文 参考訳(メタデータ) (2023-09-14T19:29:14Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。