論文の概要: ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.04695v2
- Date: Thu, 22 Feb 2024 19:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:15:28.056258
- Title: ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models
- Title(参考訳): ConceptBed:テキスト・画像拡散モデルの概念学習能力の評価
- Authors: Maitreya Patel and Tejas Gokhale and Chitta Baral and Yezhou Yang
- Abstract要約: 本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
- 参考スコア(独自算出の注目度): 79.10890337599166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to understand visual concepts and replicate and compose these
concepts from images is a central goal for computer vision. Recent advances in
text-to-image (T2I) models have lead to high definition and realistic image
quality generation by learning from large databases of images and their
descriptions. However, the evaluation of T2I models has focused on photorealism
and limited qualitative measures of visual understanding. To quantify the
ability of T2I models in learning and synthesizing novel visual concepts
(a.k.a. personalized T2I), we introduce ConceptBed, a large-scale dataset that
consists of 284 unique visual concepts, and 33K composite text prompts. Along
with the dataset, we propose an evaluation metric, Concept Confidence Deviation
(CCD), that uses the confidence of oracle concept classifiers to measure the
alignment between concepts generated by T2I generators and concepts contained
in target images. We evaluate visual concepts that are either objects,
attributes, or styles, and also evaluate four dimensions of compositionality:
counting, attributes, relations, and actions. Our human study shows that CCD is
highly correlated with human understanding of concepts. Our results point to a
trade-off between learning the concepts and preserving the compositionality
which existing approaches struggle to overcome. The data, code, and interactive
demo is available at: https://conceptbed.github.io/
- Abstract(参考訳): 視覚概念を理解し、これらの概念をイメージから複製し構成する能力は、コンピュータビジョンの中心的な目標である。
テキスト・ツー・イメージ(T2I)モデルの最近の進歩は、画像の大規模データベースとその記述から学習することで、高定義と現実的な画像品質の生成につながっている。
しかし、T2Iモデルの評価は、光リアリズムと視覚的理解の質的な基準に重点を置いている。
新たな視覚概念(例えばパーソナライズされたT2I)の学習と合成におけるT2Iモデルの能力を定量化するために,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを導入する。
本研究は,T2Iジェネレータが生成した概念と対象画像に含まれる概念のアライメントを測定するために,オラクル概念分類器の信頼性を利用した評価指標である概念信頼度偏差(CCD)を提案する。
対象,属性,スタイルのいずれかである視覚的概念を評価し,構成性の4次元(計数,属性,関係,行動)を評価する。
我々の人間による研究は、CCDが概念に対する人間の理解と非常に相関していることを示している。
この結果から,既存のアプローチが克服に苦慮している概念の学習と構成性維持のトレードオフを指摘する。
データ、コード、インタラクティブなデモは、https://conceptbed.github.io/で見ることができる。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。
テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。
いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文 参考訳(メタデータ) (2024-08-26T15:08:12Z) - Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Towards Compositionality in Concept Learning [20.960438848942445]
既存の教師なし概念抽出手法では、構成的でない概念が見つかる。
これらの特性に従う概念を見つけるための合成概念抽出(CCE)を提案する。
CCEは、ベースラインよりも構成的な概念表現を見つけ、下流の4つの分類タスクでより良い精度を得る。
論文 参考訳(メタデータ) (2024-06-26T17:59:30Z) - Knowledge graphs for empirical concept retrieval [1.06378109904813]
概念に基づく説明可能なAIは、あるユーザの前提における複雑なモデルの理解を改善するツールとして期待されている。
本稿では,テキスト領域と画像領域の両方でユーザ主導のデータ収集を行うワークフローを提案する。
我々は,概念アクティベーションベクトル(CAV)と概念アクティベーション領域(CAR)の2つの概念ベース説明可能性手法を用いて,検索した概念データセットをテストする。
論文 参考訳(メタデータ) (2024-04-10T13:47:22Z) - M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。
画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。
人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文 参考訳(メタデータ) (2023-12-16T11:06:11Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。