論文の概要: Unsupervised Learning of Compositional Energy Concepts
- arxiv url: http://arxiv.org/abs/2111.03042v1
- Date: Thu, 4 Nov 2021 17:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 12:33:15.344973
- Title: Unsupervised Learning of Compositional Energy Concepts
- Title(参考訳): 構成エネルギー概念の教師なし学習
- Authors: Yilun Du, Shuang Li, Yash Sharma, Joshua B. Tenenbaum, Igor Mordatch
- Abstract要約: 本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
- 参考スコア(独自算出の注目度): 70.11673173291426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are able to rapidly understand scenes by utilizing concepts extracted
from prior experience. Such concepts are diverse, and include global scene
descriptors, such as the weather or lighting, as well as local scene
descriptors, such as the color or size of a particular object. So far,
unsupervised discovery of concepts has focused on either modeling the global
scene-level or the local object-level factors of variation, but not both. In
this work, we propose COMET, which discovers and represents concepts as
separate energy functions, enabling us to represent both global concepts as
well as objects under a unified framework. COMET discovers energy functions
through recomposing the input image, which we find captures independent factors
without additional supervision. Sample generation in COMET is formulated as an
optimization process on underlying energy functions, enabling us to generate
images with permuted and composed concepts. Finally, discovered visual concepts
in COMET generalize well, enabling us to compose concepts between separate
modalities of images as well as with other concepts discovered by a separate
instance of COMET trained on a different dataset. Code and data available at
https://energy-based-model.github.io/comet/.
- Abstract(参考訳): 人間は、以前の経験から抽出された概念を利用して、シーンを迅速に理解することができる。
このような概念は多様であり、天気や照明などの世界的なシーン記述子や、特定のオブジェクトの色や大きさといったローカルなシーン記述子が含まれる。
これまでのところ、概念の教師なし発見は、グローバルなシーンレベルか、ローカルなオブジェクトレベルの変動要素をモデル化することに集中しているが、両方ではない。
本研究では,概念を別個のエネルギー関数として定義・表現するCOMETを提案する。
COMETは入力画像を再コンパイルすることでエネルギー関数を発見し, 追加の監督なしに独立した要因を捕捉する。
COMETのサンプル生成は、基礎となるエネルギー関数の最適化プロセスとして定式化され、置換され合成された概念で画像を生成することができる。
最後に、COMETで発見された視覚概念を一般化し、異なるデータセットで訓練されたCOMETの別インスタンスによって発見された他の概念と同様に、画像の個別のモダリティ間の概念を構成することができる。
コードとデータは、https://energy-based-model.github.io/comet/で入手できる。
関連論文リスト
- ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。
複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。
本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文 参考訳(メタデータ) (2024-07-09T17:50:28Z) - Towards Compositionality in Concept Learning [20.960438848942445]
既存の教師なし概念抽出手法では、構成的でない概念が見つかる。
これらの特性に従う概念を見つけるための合成概念抽出(CCE)を提案する。
CCEは、ベースラインよりも構成的な概念表現を見つけ、下流の4つの分類タスクでより良い精度を得る。
論文 参考訳(メタデータ) (2024-06-26T17:59:30Z) - Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models [21.245185285617698]
視覚概念接続(VCC)は、人間の解釈可能な概念とその層間接続を、完全に教師なしの方法で発見する。
提案手法は,すべての層にまたがる接続重み付けを同時に実現し,ネットワーク構造のグローバルな解析に有効である。
論文 参考訳(メタデータ) (2024-04-02T18:40:55Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - SegDiscover: Visual Concept Discovery via Unsupervised Semantic
Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。
提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文 参考訳(メタデータ) (2022-04-22T20:44:42Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。