論文の概要: Broken Letters, Broken Narratives: A Case Study on Arabic Script in DALL-E 3
- arxiv url: http://arxiv.org/abs/2502.20459v1
- Date: Thu, 27 Feb 2025 19:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:05.973008
- Title: Broken Letters, Broken Narratives: A Case Study on Arabic Script in DALL-E 3
- Title(参考訳): 破られた手紙, 破られた物語:DALL-E 3におけるアラビア文字の事例研究
- Authors: Arshia Sobhan, Philippe Pasquier, Gabriela Aceves Sepulveda,
- Abstract要約: 本稿では,生成型AIシステムDALL-E3について,書字アラビア文字を正しく表現できないことに着目した。
我々は、エドワード・サイードのオリエンタリズムの概念に照らして、これらの制限、出現するバイアス、およびより広い意味を探求する。
- 参考スコア(独自算出の注目度): 5.649205001069577
- License:
- Abstract: Text-to-image generative AI systems exhibit significant limitations when engaging with under-represented domains, including non-Western art forms, often perpetuating biases and misrepresentations. We present a focused case study on the generative AI system DALL-E 3, examining its inability to properly represent calligraphic Arabic script, a culturally significant art form. Through a critical analysis of the generated outputs, we explore these limitations, emerging biases, and the broader implications in light of Edward Said's concept of Orientalism as well as historical examples of pseudo-Arabic. We discuss how misrepresentations persist in new technological contexts and what consequences they may have.
- Abstract(参考訳): テキストから画像へ生成するAIシステムは、非西洋の芸術形式やしばしばバイアスや誤った表現を含む、表現されていない領域に関わった場合、重大な制限を示す。
本稿では,文化的に重要な芸術形式である書体アラビア文字を正しく表現できないことに着目した,生成型AIシステムDALL-E3のケーススタディを提案する。
生成した出力の批判的分析を通じて、これらの制限、出現するバイアス、そしてエドワード・サイードの東洋主義の概念と疑似アラビア語の歴史的例に照らしてより広い意味を探求する。
我々は、新しい技術状況における誤表現の持続と、それらが持つ可能性のある結果について論じる。
関連論文リスト
- A Framework for Critical Evaluation of Text-to-Image Models: Integrating Art Historical Analysis, Artistic Exploration, and Critical Prompt Engineering [0.0]
本稿では,テキスト・ツー・イメージ・モデルの批判的評価のための新たな学際的枠組みを提案する。
アート・ヒストリカル・アナリティクス、芸術的な探究、重要なプロンプト・エンジニアリングを統合することで、このフレームワークはこれらのモデルの能力と社会的意味についてより微妙な理解を提供する。
ケーススタディは、このフレームワークの実践的応用を実証し、性別、人種、文化的表現に関連するバイアスを明らかにする方法を示している。
論文 参考訳(メタデータ) (2024-12-17T10:35:27Z) - Civiverse: A Dataset for Analyzing User Engagement with Open-Source Text-to-Image Models [0.7209758868768352]
我々は、何百万もの画像と関連するメタデータを含むCiviverseプロンプトデータセットを解析する。
本稿では,テキストプロンプトのセマンティックな特徴について,プロンプト解析に着目する。
本研究は, 意味的コンテンツの均質化に焦点をあてた上で, 明示的コンテンツの生成を優先する傾向を示した。
論文 参考訳(メタデータ) (2024-08-10T21:41:03Z) - Dotless Representation of Arabic Text: Analysis and Modeling [1.5867166995321356]
本稿では,標準アラビア語テキスト表現の代替として,アラビア語テキストのドットレス表現を新たに提案する。
本稿では,ドットレス表現がトークン化粒度と語彙サイズの関係に与える影響について検討する。
標準アラビア文字表現を用いて開発された言語モデルに対して比較評価を行う。
論文 参考訳(メタデータ) (2023-12-26T16:16:33Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Multi-Lingual DALL-E Storytime [5.413638330498511]
非英語の歌や物語の高速な可視化を実現するために,DALL-Eストーリーテリングフレームワークを提案する。
我々のフレームワークは、非英語テキストからのストーリーを効果的に可視化し、プロットの変化を時間とともに表現することができる。
論文 参考訳(メタデータ) (2022-12-22T07:06:35Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - A Framework and Dataset for Abstract Art Generation via CalligraphyGAN [0.0]
本研究では,コンディショナル・ジェネレーティブ・アドバイザリ・ネットワークと文脈ニューラル言語モデルに基づく創造的枠組みを提示し,抽象アートワークを生成する。
私たちの作品は中国書道に触発され、字そのものが美的絵画である独特の視覚芸術形式である。
論文 参考訳(メタデータ) (2020-12-02T16:24:20Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。