論文の概要: Text-to-Image Generation for Abstract Concepts
- arxiv url: http://arxiv.org/abs/2309.14623v2
- Date: Wed, 27 Sep 2023 05:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 10:13:14.850813
- Title: Text-to-Image Generation for Abstract Concepts
- Title(参考訳): 抽象概念のためのテキスト・画像生成
- Authors: Jiayi Liao, Xu Chen, Qiang Fu, Lun Du, Xiangnan He, Xiang Wang, Shi
Han, Dongmei Zhang
- Abstract要約: 抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
- 参考スコア(独自算出の注目度): 76.32278151607763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the substantial progress of large-scale models
across various domains, such as natural language processing and computer
vision, facilitating the expression of concrete concepts. Unlike concrete
concepts that are usually directly associated with physical objects, expressing
abstract concepts through natural language requires considerable effort, which
results from their intricate semantics and connotations. An alternative
approach is to leverage images to convey rich visual information as a
supplement. Nevertheless, existing Text-to-Image (T2I) models are primarily
trained on concrete physical objects and tend to fail to visualize abstract
concepts. Inspired by the three-layer artwork theory that identifies critical
factors, intent, object and form during artistic creation, we propose a
framework of Text-to-Image generation for Abstract Concepts (TIAC). The
abstract concept is clarified into a clear intent with a detailed definition to
avoid ambiguity. LLMs then transform it into semantic-related physical objects,
and the concept-dependent form is retrieved from an LLM-extracted form pattern
set. Information from these three aspects will be integrated to generate
prompts for T2I models via LLM. Evaluation results from human assessments and
our newly designed metric concept score demonstrate the effectiveness of our
framework in creating images that can sufficiently express abstract concepts.
- Abstract(参考訳): 近年、自然言語処理やコンピュータビジョンなど、様々な領域で大規模なモデルが大幅に進歩し、具体的な概念の表現が容易になった。
通常、物理的オブジェクトと直接関連づけられる具体的な概念とは異なり、自然言語による抽象概念の表現にはかなりの労力がかかり、複雑な意味論と意味論から生じる。
別のアプローチとして、画像を利用して豊かな視覚情報を補足として伝える方法がある。
それでも、既存のテキスト・トゥ・イメージ(T2I)モデルは、具体的物理オブジェクトで主に訓練されており、抽象概念の視覚化に失敗する傾向がある。
芸術的創造において重要な要素,意図,対象,形態を識別する3層アート理論に着想を得て,抽象概念のためのテキスト・画像生成の枠組みを提案する。
抽象概念は曖昧さを避けるために詳細な定義を持つ明確な意図に明確化される。
LLMはそれを意味的関連のある物理的オブジェクトに変換し、概念に依存したフォームはLLM抽出されたフォームパターンセットから検索される。
これら3つの側面からの情報は、LSMを介してT2Iモデルのプロンプトを生成するために統合される。
ヒューマンアセスメントによる評価結果と新たにデザインしたメートル法概念スコアは,抽象概念を十分に表現できる画像作成における我々のフレームワークの有効性を示す。
関連論文リスト
- MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - From Concrete to Abstract: A Multimodal Generative Approach to Abstract Concept Learning [3.645603633040378]
本稿では,高次抽象概念学習におけるマルチモーダル生成手法を提案する。
我々のモデルは、まず下層コンクリート概念を基礎として、それらを結合して基本レベル概念を形成し、最後にレベル概念を重畳するために抽象化する。
高階抽象概念を用いた言語対視覚および視覚対言語テストによるモデル言語学習能力の評価を行った。
論文 参考訳(メタデータ) (2024-10-03T10:24:24Z) - CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding [9.787025432074978]
本稿では,Pmpt for Abstract Concepts (POAC)を導入し,テキスト・画像拡散モデルの性能向上を図る。
本稿では,事前学習した言語モデルから算出したPrompt Language Model (PLM)を提案する。
本フレームワークでは, 安定拡散モデルと最適化プロンプトによる画像のアライメントに着目し, 強化学習(RL)に基づく最適化戦略を採用している。
論文 参考訳(メタデータ) (2024-04-17T17:38:56Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models [60.80960965051388]
形容詞と動詞は名詞で絡み合っている(目的語)
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames [1.4502611532302037]
非物理的オブジェクトを参照する社会的概念は、視覚データの内容を記述、インデックス化、クエリするための強力なツールである。
本稿では,社会概念をマルチモーダル・フレームとして表現するためのソフトウェア手法を提案する。
本手法は,視覚芸術作品から興味ある概念をタグ付けしたマルチモーダル特徴の抽出,解析,統合に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-14T14:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。