論文の概要: Unsupervised Learning of Compositional Energy Concepts
- arxiv url: http://arxiv.org/abs/2111.03042v1
- Date: Thu, 4 Nov 2021 17:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 12:33:15.344973
- Title: Unsupervised Learning of Compositional Energy Concepts
- Title(参考訳): 構成エネルギー概念の教師なし学習
- Authors: Yilun Du, Shuang Li, Yash Sharma, Joshua B. Tenenbaum, Igor Mordatch
- Abstract要約: 本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
- 参考スコア(独自算出の注目度): 70.11673173291426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are able to rapidly understand scenes by utilizing concepts extracted
from prior experience. Such concepts are diverse, and include global scene
descriptors, such as the weather or lighting, as well as local scene
descriptors, such as the color or size of a particular object. So far,
unsupervised discovery of concepts has focused on either modeling the global
scene-level or the local object-level factors of variation, but not both. In
this work, we propose COMET, which discovers and represents concepts as
separate energy functions, enabling us to represent both global concepts as
well as objects under a unified framework. COMET discovers energy functions
through recomposing the input image, which we find captures independent factors
without additional supervision. Sample generation in COMET is formulated as an
optimization process on underlying energy functions, enabling us to generate
images with permuted and composed concepts. Finally, discovered visual concepts
in COMET generalize well, enabling us to compose concepts between separate
modalities of images as well as with other concepts discovered by a separate
instance of COMET trained on a different dataset. Code and data available at
https://energy-based-model.github.io/comet/.
- Abstract(参考訳): 人間は、以前の経験から抽出された概念を利用して、シーンを迅速に理解することができる。
このような概念は多様であり、天気や照明などの世界的なシーン記述子や、特定のオブジェクトの色や大きさといったローカルなシーン記述子が含まれる。
これまでのところ、概念の教師なし発見は、グローバルなシーンレベルか、ローカルなオブジェクトレベルの変動要素をモデル化することに集中しているが、両方ではない。
本研究では,概念を別個のエネルギー関数として定義・表現するCOMETを提案する。
COMETは入力画像を再コンパイルすることでエネルギー関数を発見し, 追加の監督なしに独立した要因を捕捉する。
COMETのサンプル生成は、基礎となるエネルギー関数の最適化プロセスとして定式化され、置換され合成された概念で画像を生成することができる。
最後に、COMETで発見された視覚概念を一般化し、異なるデータセットで訓練されたCOMETの別インスタンスによって発見された他の概念と同様に、画像の個別のモダリティ間の概念を構成することができる。
コードとデータは、https://energy-based-model.github.io/comet/で入手できる。
関連論文リスト
- Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial
Networks [27.481736329336247]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Hierarchical Concept Discovery Models: A Concept Pyramid Scheme [11.138948381367133]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
私たちのゴールは、人間の理解可能な概念に関して、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することです。
この枠組みの中では、概念情報は全体像と一般的な非構造化概念との類似性にのみ依存しない。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Concept Decomposition for Visual Exploration and Inspiration [53.06983340652571]
本稿では,視覚概念を階層木構造に符号化した異なる視覚的側面に分解する手法を提案する。
我々は、概念分解と生成のために、大きな視覚言語モデルとそのリッチな潜在空間を利用する。
論文 参考訳(メタデータ) (2023-05-29T16:56:56Z) - SegDiscover: Visual Concept Discovery via Unsupervised Semantic
Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。
提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文 参考訳(メタデータ) (2022-04-22T20:44:42Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Concept Generalization in Visual Representation Learning [39.32868843527767]
目に見える概念と目に見えない概念のセマンティックな関係が一般化性能に影響を及ぼすと論じる。
概念一般化を原理的に測定できる,ImageNetデータセットの新たなベンチマークであるImageNet-CoGを提案する。
論文 参考訳(メタデータ) (2020-12-10T13:13:22Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。