論文の概要: Text-to-Image Generation for Abstract Concepts
- arxiv url: http://arxiv.org/abs/2309.14623v2
- Date: Wed, 27 Sep 2023 05:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 10:13:14.850813
- Title: Text-to-Image Generation for Abstract Concepts
- Title(参考訳): 抽象概念のためのテキスト・画像生成
- Authors: Jiayi Liao, Xu Chen, Qiang Fu, Lun Du, Xiangnan He, Xiang Wang, Shi
Han, Dongmei Zhang
- Abstract要約: 抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
- 参考スコア(独自算出の注目度): 76.32278151607763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the substantial progress of large-scale models
across various domains, such as natural language processing and computer
vision, facilitating the expression of concrete concepts. Unlike concrete
concepts that are usually directly associated with physical objects, expressing
abstract concepts through natural language requires considerable effort, which
results from their intricate semantics and connotations. An alternative
approach is to leverage images to convey rich visual information as a
supplement. Nevertheless, existing Text-to-Image (T2I) models are primarily
trained on concrete physical objects and tend to fail to visualize abstract
concepts. Inspired by the three-layer artwork theory that identifies critical
factors, intent, object and form during artistic creation, we propose a
framework of Text-to-Image generation for Abstract Concepts (TIAC). The
abstract concept is clarified into a clear intent with a detailed definition to
avoid ambiguity. LLMs then transform it into semantic-related physical objects,
and the concept-dependent form is retrieved from an LLM-extracted form pattern
set. Information from these three aspects will be integrated to generate
prompts for T2I models via LLM. Evaluation results from human assessments and
our newly designed metric concept score demonstrate the effectiveness of our
framework in creating images that can sufficiently express abstract concepts.
- Abstract(参考訳): 近年、自然言語処理やコンピュータビジョンなど、様々な領域で大規模なモデルが大幅に進歩し、具体的な概念の表現が容易になった。
通常、物理的オブジェクトと直接関連づけられる具体的な概念とは異なり、自然言語による抽象概念の表現にはかなりの労力がかかり、複雑な意味論と意味論から生じる。
別のアプローチとして、画像を利用して豊かな視覚情報を補足として伝える方法がある。
それでも、既存のテキスト・トゥ・イメージ(T2I)モデルは、具体的物理オブジェクトで主に訓練されており、抽象概念の視覚化に失敗する傾向がある。
芸術的創造において重要な要素,意図,対象,形態を識別する3層アート理論に着想を得て,抽象概念のためのテキスト・画像生成の枠組みを提案する。
抽象概念は曖昧さを避けるために詳細な定義を持つ明確な意図に明確化される。
LLMはそれを意味的関連のある物理的オブジェクトに変換し、概念に依存したフォームはLLM抽出されたフォームパターンセットから検索される。
これら3つの側面からの情報は、LSMを介してT2Iモデルのプロンプトを生成するために統合される。
ヒューマンアセスメントによる評価結果と新たにデザインしたメートル法概念スコアは,抽象概念を十分に表現できる画像作成における我々のフレームワークの有効性を示す。
関連論文リスト
- Language-Informed Visual Concept Learning [25.02900120591992]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - MetaCLUE: Towards Comprehensive Visual Metaphors Research [43.604408485890275]
本稿では,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
我々は、アノテーションに基づいて、視覚と言語における最先端モデルの包括的分析を行う。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
論文 参考訳(メタデータ) (2022-12-19T22:41:46Z) - Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames [1.4502611532302037]
非物理的オブジェクトを参照する社会的概念は、視覚データの内容を記述、インデックス化、クエリするための強力なツールである。
本稿では,社会概念をマルチモーダル・フレームとして表現するためのソフトウェア手法を提案する。
本手法は,視覚芸術作品から興味ある概念をタグ付けしたマルチモーダル特徴の抽出,解析,統合に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-14T14:50:22Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。