論文の概要: Successes and Limitations of Object-centric Models at Compositional Generalisation
- arxiv url: http://arxiv.org/abs/2412.18743v1
- Date: Wed, 25 Dec 2024 02:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:24.684622
- Title: Successes and Limitations of Object-centric Models at Compositional Generalisation
- Title(参考訳): 合成一般化における対象中心モデルの成功と限界
- Authors: Milton L. Montero, Jeffrey S. Bowers, Gaurav Malhotra,
- Abstract要約: オブジェクト中心アーキテクチャが有望な構成スキルを示していることを示す。
本研究は、これらのスキルの源泉と、注意深いトレーニングを通じて改善できる方法を示すエビデンスを示す。
- 参考スコア(独自算出の注目度): 4.342241136871849
- License:
- Abstract: In recent years, it has been shown empirically that standard disentangled latent variable models do not support robust compositional learning in the visual domain. Indeed, in spite of being designed with the goal of factorising datasets into their constituent factors of variations, disentangled models show extremely limited compositional generalisation capabilities. On the other hand, object-centric architectures have shown promising compositional skills, albeit these have 1) not been extensively tested and 2) experiments have been limited to scene composition -- where models must generalise to novel combinations of objects in a visual scene instead of novel combinations of object properties. In this work, we show that these compositional generalisation skills extend to this later setting. Furthermore, we present evidence pointing to the source of these skills and how they can be improved through careful training. Finally, we point to one important limitation that still exists which suggests new directions of research.
- Abstract(参考訳): 近年,視覚領域における頑健な構成学習をサポートしない標準非交叉潜在変数モデルが実証的に示されている。
実際、データセットを変動要因に分解する目的で設計されているにもかかわらず、非絡み合ったモデルは非常に限定的な構成一般化能力を示している。
一方、オブジェクト中心アーキテクチャは、有望な構成スキルを示しているが、それらはある。
1) 広範囲に検査されていないこと
2) 実験はシーン構成に限られている。そこでは、モデルは、新しいオブジェクトプロパティの組み合わせではなく、視覚的なシーンにおけるオブジェクトの新しい組み合わせに一般化する必要がある。
本稿では、これらの構成一般化スキルが、この後段の設定にまで拡張されていることを示す。
さらに、これらのスキルの源泉と、注意深いトレーニングを通じて改善できる方法を示すエビデンスを示す。
最後に、研究の新たな方向性を示す重要な制限を1つ挙げる。
関連論文リスト
- Can Visual Foundation Models Achieve Long-term Point Tracking? [37.95592121632532]
点追跡の文脈における視覚基盤モデルの幾何学的認識を評価する。
以上の結果より, 安定拡散とDINOv2の特徴は, ゼロショット設定において優れた幾何対応能力を示すことが示唆された。
論文 参考訳(メタデータ) (2024-08-24T12:58:08Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - What makes Models Compositional? A Theoretical View: With Supplement [60.284698521569936]
本稿では,構成関数の一般神経-記号的定義とその構成複雑性について述べる。
既存の汎用および特殊目的のシーケンス処理モデルがこの定義にどのように適合しているかを示し、それらを用いて構成複雑性を分析する。
論文 参考訳(メタデータ) (2024-05-02T20:10:27Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Compositional Generalization for Multi-label Text Classification: A
Data-Augmentation Approach [40.879814474959545]
既存の多ラベルテキスト分類モデルの合成一般化能力を評価する。
以上の結果から,これらのモデルが学習中に頻繁に遭遇する構成概念に一般化できないことが示唆された。
そこで本研究では、2つの革新的なテキスト生成モデルを活用するデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T15:18:57Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Sample-Efficient Learning of Novel Visual Concepts [7.398195748292981]
最先端のディープラーニングモデルは、数ショットで新しいオブジェクトを認識するのに苦労している。
我々は,記号的知識グラフを最先端認識モデルに組み込むことで,効果的に数発の分類を行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-15T20:24:30Z) - Provably Learning Object-Centric Representations [25.152680199034215]
我々は、オブジェクト中心の表現がいつ、監督なしに確実に学習できるかを分析する。
そこで本研究では, 基本構造オブジェクト表現が可逆的, 構成的推論モデルによって識別可能であることを証明した。
我々は、既存の対象中心モデルに対して、我々の理論が予測力を持つ証拠を提供する。
論文 参考訳(メタデータ) (2023-05-23T16:44:49Z) - Separating Skills and Concepts for Novel Visual Question Answering [66.46070380927372]
アウト・オブ・ディストリビューションデータへの一般化は、VQA(Visual Question Answering)モデルにおいて問題となっている。
「スキル」とは、数え方や属性認識などの視覚的なタスクであり、その疑問に言及された「概念」に適用される。
モデル内でこれらの2つの要因を暗黙的に分離するスキルと概念を学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-19T18:55:10Z) - Towards causal generative scene models via competition of experts [26.181132737834826]
生成モデル(エキスパート)のアンサンブルを訓練することでモジュラリティを促進させる帰納的バイアスを用いた代替手法を提案する。
トレーニング中、専門家はシーンの一部を説明するために競い合い、それによって異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として認識される。
我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。
論文 参考訳(メタデータ) (2020-04-27T16:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。