論文の概要: A Framework for Critical Evaluation of Text-to-Image Models: Integrating Art Historical Analysis, Artistic Exploration, and Critical Prompt Engineering
- arxiv url: http://arxiv.org/abs/2412.12774v1
- Date: Tue, 17 Dec 2024 10:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:01.180221
- Title: A Framework for Critical Evaluation of Text-to-Image Models: Integrating Art Historical Analysis, Artistic Exploration, and Critical Prompt Engineering
- Title(参考訳): テクスト・トゥ・イメージ・モデルの批判的評価のためのフレームワーク:アート・ヒストリカル・アナリティクス、アート・エクスプローテーション、クリティカル・プロンプト・エンジニアリングの統合
- Authors: Amalia Foka,
- Abstract要約: 本稿では,テキスト・ツー・イメージ・モデルの批判的評価のための新たな学際的枠組みを提案する。
アート・ヒストリカル・アナリティクス、芸術的な探究、重要なプロンプト・エンジニアリングを統合することで、このフレームワークはこれらのモデルの能力と社会的意味についてより微妙な理解を提供する。
ケーススタディは、このフレームワークの実践的応用を実証し、性別、人種、文化的表現に関連するバイアスを明らかにする方法を示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper proposes a novel interdisciplinary framework for the critical evaluation of text-to-image models, addressing the limitations of current technical metrics and bias studies. By integrating art historical analysis, artistic exploration, and critical prompt engineering, the framework offers a more nuanced understanding of these models' capabilities and societal implications. Art historical analysis provides a structured approach to examine visual and symbolic elements, revealing potential biases and misrepresentations. Artistic exploration, through creative experimentation, uncovers hidden potentials and limitations, prompting critical reflection on the algorithms' assumptions. Critical prompt engineering actively challenges the model's assumptions, exposing embedded biases. Case studies demonstrate the framework's practical application, showcasing how it can reveal biases related to gender, race, and cultural representation. This comprehensive approach not only enhances the evaluation of text-to-image models but also contributes to the development of more equitable, responsible, and culturally aware AI systems.
- Abstract(参考訳): 本稿では,現在の技術指標とバイアス研究の限界に対処する,テキスト・ツー・イメージ・モデルの批判的評価のための新たな学際的枠組みを提案する。
アート・ヒストリカル・アナリティクス、芸術的な探究、重要なプロンプト・エンジニアリングを統合することで、このフレームワークはこれらのモデルの能力と社会的意味についてより微妙な理解を提供する。
美術史分析は、視覚的および象徴的な要素を調べるための構造化されたアプローチを提供し、潜在的なバイアスと誤表現を明らかにする。
芸術的な探索は、創造的な実験を通じて隠れたポテンシャルと限界を明らかにし、アルゴリズムの仮定を批判的に反映させる。
重要なプロンプトエンジニアリングは、埋め込みバイアスを露呈し、モデルの仮定に積極的に挑戦する。
ケーススタディは、このフレームワークの実践的応用を実証し、性別、人種、文化的表現に関連するバイアスを明らかにする方法を示している。
この包括的なアプローチは、テキスト・ツー・イメージ・モデルの評価を高めるだけでなく、より公平で責任があり、文化的に意識されたAIシステムの開発にも貢献する。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Hierarchical Narrative Analysis: Unraveling Perceptions of Generative AI [1.1874952582465599]
大規模言語モデル(LLM)を利用して,これらの構造を階層的な枠組みに抽出・整理する手法を提案する。
我々は,日本の文化庁が収集した生成AIに関する世論を分析して,このアプローチを検証する。
我々の分析は、生成的AIに対する多様な意見に影響を与える要因のより明確な可視化を提供し、合意と不一致の構造に関する深い洞察を提供する。
論文 参考訳(メタデータ) (2024-09-17T09:56:12Z) - Diffusion-Based Visual Art Creation: A Survey and New Perspectives [51.522935314070416]
本調査は,拡散に基づく視覚芸術創造の新たな領域を探求し,その発展を芸術的,技術的両面から検討する。
本研究は,芸術的要件が技術的課題にどのように変換されるかを明らかにし,視覚芸術創造における拡散法の設計と応用を強調した。
我々は、AIシステムが芸術的知覚と創造性において人間の能力をエミュレートし、潜在的に増強するメカニズムに光を当てることを目指している。
論文 参考訳(メタデータ) (2024-08-22T04:49:50Z) - Civiverse: A Dataset for Analyzing User Engagement with Open-Source Text-to-Image Models [0.7209758868768352]
我々は、何百万もの画像と関連するメタデータを含むCiviverseプロンプトデータセットを解析する。
本稿では,テキストプロンプトのセマンティックな特徴について,プロンプト解析に着目する。
本研究は, 意味的コンテンツの均質化に焦点をあてた上で, 明示的コンテンツの生成を優先する傾向を示した。
論文 参考訳(メタデータ) (2024-08-10T21:41:03Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - An Interdisciplinary Perspective on Evaluation and Experimental Design
for Visual Text Analytics: Position Paper [24.586485898038312]
本稿では,視覚的テキスト分析手法の評価に焦点をあてる。
視覚テキスト分析手法を評価する上で,課題の4つの主要なグループを同定する。
論文 参考訳(メタデータ) (2022-09-23T11:47:37Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。