Fugu-MT 論文翻訳(概要): Unsupervised Learning of Compositional Energy Concepts

論文の概要: Unsupervised Learning of Compositional Energy Concepts

arxiv url: http://arxiv.org/abs/2111.03042v1
Date: Thu, 4 Nov 2021 17:46:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-05 12:33:15.344973
Title: Unsupervised Learning of Compositional Energy Concepts
Title（参考訳）: 構成エネルギー概念の教師なし学習
Authors: Yilun Du, Shuang Li, Yash Sharma, Joshua B. Tenenbaum, Igor Mordatch
Abstract要約: 本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。 Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
参考スコア（独自算出の注目度）: 70.11673173291426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans are able to rapidly understand scenes by utilizing concepts extracted from prior experience. Such concepts are diverse, and include global scene descriptors, such as the weather or lighting, as well as local scene descriptors, such as the color or size of a particular object. So far, unsupervised discovery of concepts has focused on either modeling the global scene-level or the local object-level factors of variation, but not both. In this work, we propose COMET, which discovers and represents concepts as separate energy functions, enabling us to represent both global concepts as well as objects under a unified framework. COMET discovers energy functions through recomposing the input image, which we find captures independent factors without additional supervision. Sample generation in COMET is formulated as an optimization process on underlying energy functions, enabling us to generate images with permuted and composed concepts. Finally, discovered visual concepts in COMET generalize well, enabling us to compose concepts between separate modalities of images as well as with other concepts discovered by a separate instance of COMET trained on a different dataset. Code and data available at https://energy-based-model.github.io/comet/.
Abstract（参考訳）: 人間は、以前の経験から抽出された概念を利用して、シーンを迅速に理解することができる。このような概念は多様であり、天気や照明などの世界的なシーン記述子や、特定のオブジェクトの色や大きさといったローカルなシーン記述子が含まれる。これまでのところ、概念の教師なし発見は、グローバルなシーンレベルか、ローカルなオブジェクトレベルの変動要素をモデル化することに集中しているが、両方ではない。本研究では,概念を別個のエネルギー関数として定義・表現するCOMETを提案する。 COMETは入力画像を再コンパイルすることでエネルギー関数を発見し, 追加の監督なしに独立した要因を捕捉する。 COMETのサンプル生成は、基礎となるエネルギー関数の最適化プロセスとして定式化され、置換され合成された概念で画像を生成することができる。最後に、COMETで発見された視覚概念を一般化し、異なるデータセットで訓練されたCOMETの別インスタンスによって発見された他の概念と同様に、画像の個別のモダリティ間の概念を構成することができる。コードとデータは、https://energy-based-model.github.io/comet/で入手できる。

関連論文リスト

Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。 USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文参考訳（メタデータ） (2025-02-06T02:06:16Z)
OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文参考訳（メタデータ） (2024-07-09T17:50:28Z)
Towards Compositionality in Concept Learning [20.960438848942445]
既存の教師なし概念抽出手法では、構成的でない概念が見つかる。これらの特性に従う概念を見つけるための合成概念抽出(CCE)を提案する。 CCEは、ベースラインよりも構成的な概念表現を見つけ、下流の4つの分類タスクでより良い精度を得る。
論文参考訳（メタデータ） (2024-06-26T17:59:30Z)
Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models [21.245185285617698]
視覚概念接続(VCC)は、人間の解釈可能な概念とその層間接続を、完全に教師なしの方法で発見する。提案手法は,すべての層にまたがる接続重み付けを同時に実現し,ネットワーク構造のグローバルな解析に有効である。
論文参考訳（メタデータ） (2024-04-02T18:40:55Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文参考訳（メタデータ） (2023-11-28T01:33:18Z)
AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文参考訳（メタデータ） (2023-07-18T17:59:02Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)
SegDiscover: Visual Concept Discovery via Unsupervised Semantic Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文参考訳（メタデータ） (2022-04-22T20:44:42Z)
Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。 iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文参考訳（メタデータ） (2021-12-04T09:25:40Z)
Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文参考訳（メタデータ） (2020-08-26T20:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。