論文の概要: Bridging the Intent Gap: Knowledge-Enhanced Visual Generation
- arxiv url: http://arxiv.org/abs/2405.12538v1
- Date: Tue, 21 May 2024 07:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:08:52.831930
- Title: Bridging the Intent Gap: Knowledge-Enhanced Visual Generation
- Title(参考訳): インテントギャップのブリッジ:知識に富んだビジュアルジェネレーション
- Authors: Yi Cheng, Ziwei Xu, Dongyun Lin, Harry Cheng, Yongkang Wong, Ying Sun, Joo Hwee Lim, Mohan Kankanhalli,
- Abstract要約: 視覚的コンテンツ生成では、ユーザの意図と生成されたコンテンツとの相違が長年にわたって問題となっている。
視覚コンテンツ生成のための知識強化型反復改善フレームワークを提案する。
提案手法の有効性を予備実験により実証した。
- 参考スコア(独自算出の注目度): 27.568260631117365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For visual content generation, discrepancies between user intentions and the generated content have been a longstanding problem. This discrepancy arises from two main factors. First, user intentions are inherently complex, with subtle details not fully captured by input prompts. The absence of such details makes it challenging for generative models to accurately reflect the intended meaning, leading to a mismatch between the desired and generated output. Second, generative models trained on visual-label pairs lack the comprehensive knowledge to accurately represent all aspects of the input data in their generated outputs. To address these challenges, we propose a knowledge-enhanced iterative refinement framework for visual content generation. We begin by analyzing and identifying the key challenges faced by existing generative models. Then, we introduce various knowledge sources, including human insights, pre-trained models, logic rules, and world knowledge, which can be leveraged to address these challenges. Furthermore, we propose a novel visual generation framework that incorporates a knowledge-based feedback module to iteratively refine the generation process. This module gradually improves the alignment between the generated content and user intentions. We demonstrate the efficacy of the proposed framework through preliminary results, highlighting the potential of knowledge-enhanced generative models for intention-aligned content generation.
- Abstract(参考訳): 視覚的コンテンツ生成では、ユーザの意図と生成されたコンテンツとの相違が長年にわたって問題となっている。
この相違は2つの主な要因から生じる。
まず、ユーザの意図は本質的に複雑で、微妙な詳細は入力プロンプトによって完全にはキャプチャされない。
このような詳細がないことは、生成モデルが意図した意味を正確に反映することを難しくし、所望の出力と生成された出力のミスマッチにつながる。
第二に、ビジュアルラベルペアで訓練された生成モデルは、生成された出力の入力データのすべての側面を正確に表現する包括的な知識を欠いている。
これらの課題に対処するために,視覚コンテンツ生成のための知識強化反復改善フレームワークを提案する。
まず、既存の生成モデルが直面する重要な課題を分析し、特定することから始める。
そして、人間の洞察、事前学習されたモデル、論理ルール、世界知識など、これらの課題に対処するために活用できる様々な知識源を紹介します。
さらに,知識に基づくフィードバックモジュールを組み込んで生成プロセスを反復的に洗練する新しい視覚生成フレームワークを提案する。
このモジュールは、生成されたコンテンツとユーザの意図のアライメントを徐々に改善します。
提案手法の有効性を予備実験により実証し,意図的コンテンツ生成のための知識強化型生成モデルの可能性を明らかにする。
関連論文リスト
- OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking [57.06347681695629]
提案するOmniThinkは,人間のような反復的展開とリフレクションの過程をエミュレートする,ゆっくり考えるマシンライティングフレームワークである。
実験結果から,OmniThinkはコヒーレンスや深度といった指標を伴わずに,生成した記事の知識密度を向上することが示された。
人間の評価と専門家のフィードバックは、OmniThinkが長文記事の生成における現実的な課題に対処する可能性を強調している。
論文 参考訳(メタデータ) (2025-01-16T18:58:06Z) - Foundations of GenIR [14.45971746205563]
この章では、情報アクセスシステムにおける現代の生成AIモデルの基盤的影響について論じている。
従来のAIとは対照的に、生成AIモデルの大規模なトレーニングと優れたデータモデリングにより、高品質で人間らしい応答を生成することができる。
論文 参考訳(メタデータ) (2025-01-06T08:38:29Z) - Personalized Representation from Personalized Generation [36.848215621708235]
我々は、パーソナライズされた合成データを用いてパーソナライズされた表現を学習するという課題を定式化する。
提案手法は,多様な下流タスクに対するパーソナライズされた表現学習を改善する。
論文 参考訳(メタデータ) (2024-12-20T18:59:03Z) - Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。
DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。
我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文 参考訳(メタデータ) (2024-11-23T10:06:18Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling [39.59158974352266]
視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T12:55:47Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。