Fugu-MT 論文翻訳(概要): Broken Letters, Broken Narratives: A Case Study on Arabic Script in DALL-E 3

論文の概要: Broken Letters, Broken Narratives: A Case Study on Arabic Script in DALL-E 3

arxiv url: http://arxiv.org/abs/2502.20459v1
Date: Thu, 27 Feb 2025 19:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.423766
Title: Broken Letters, Broken Narratives: A Case Study on Arabic Script in DALL-E 3
Title（参考訳）: 破られた手紙, 破られた物語:DALL-E 3におけるアラビア文字の事例研究
Authors: Arshia Sobhan, Philippe Pasquier, Gabriela Aceves Sepulveda,
Abstract要約: 本稿では,生成型AIシステムDALL-E3について,書字アラビア文字を正しく表現できないことに着目した。我々は、エドワード・サイードのオリエンタリズムの概念に照らして、これらの制限、出現するバイアス、およびより広い意味を探求する。
参考スコア（独自算出の注目度）: 5.649205001069577
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-image generative AI systems exhibit significant limitations when engaging with under-represented domains, including non-Western art forms, often perpetuating biases and misrepresentations. We present a focused case study on the generative AI system DALL-E 3, examining its inability to properly represent calligraphic Arabic script, a culturally significant art form. Through a critical analysis of the generated outputs, we explore these limitations, emerging biases, and the broader implications in light of Edward Said's concept of Orientalism as well as historical examples of pseudo-Arabic. We discuss how misrepresentations persist in new technological contexts and what consequences they may have.
Abstract（参考訳）: テキストから画像へ生成するAIシステムは、非西洋の芸術形式やしばしばバイアスや誤った表現を含む、表現されていない領域に関わった場合、重大な制限を示す。本稿では,文化的に重要な芸術形式である書体アラビア文字を正しく表現できないことに着目した,生成型AIシステムDALL-E3のケーススタディを提案する。生成した出力の批判的分析を通じて、これらの制限、出現するバイアス、そしてエドワード・サイードの東洋主義の概念と疑似アラビア語の歴史的例に照らしてより広い意味を探求する。我々は、新しい技術状況における誤表現の持続と、それらが持つ可能性のある結果について論じる。

関連論文リスト

DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding [32.85312741808662]
1,272のキュレートされたサンプルのベンチマークであるDuwatBenchについて紹介する。このデータセットは、複雑なストロークパターン、密集したリグチュア、スタイリスティックなバリエーションなど、アラビア文字の現実的な課題を反映している。 DuwatBenchを用いて、アラビア語と多言語のマルチモーダルモデルを13種類評価し、クリーンテキストでうまく機能する一方で、書体の変化、芸術的歪み、正確な視覚的テキストアライメントに苦慮していることを示した。
論文参考訳（メタデータ） (2026-01-27T18:59:19Z)
Beyond Instrumental and Substitutive Paradigms: Introducing Machine Culture as an Emergent Phenomenon in Large Language Models [9.785535924216765]
本研究は,TextbfMachine Cultureを創発的で異なる現象として提案する。私たちは8つのマルチモーダルタスクで2ドル(Model Origin: US vs. China)の2ドル(Prompt Language: English vs. Chinese)のファクターデザインを採用しました。 LLMは人間の文化をシミュレートするのではなく、創発的な機械文化を示すと結論付けている。
論文参考訳（メタデータ） (2026-01-23T13:11:28Z)
Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文参考訳（メタデータ） (2025-09-27T16:27:36Z)
The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text [0.05399757380241794]
大型言語モデル(LLM)は、人間のようなテキストを生成する際、前例のない能力を達成した。本稿ではアラビア語機械生成テキストの包括的調査について述べる。我々は,形式的文脈における異常な性能を実現するBERTに基づく検出モデルを開発した。
論文参考訳（メタデータ） (2025-05-29T09:24:00Z)
Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models [3.6335172274433414]
本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。我々は、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを浮き彫りにする。
論文参考訳（メタデータ） (2025-04-05T06:17:43Z)
A Framework for Critical Evaluation of Text-to-Image Models: Integrating Art Historical Analysis, Artistic Exploration, and Critical Prompt Engineering [0.0]
本稿では,テキスト・ツー・イメージ・モデルの批判的評価のための新たな学際的枠組みを提案する。アート・ヒストリカル・アナリティクス、芸術的な探究、重要なプロンプト・エンジニアリングを統合することで、このフレームワークはこれらのモデルの能力と社会的意味についてより微妙な理解を提供する。ケーススタディは、このフレームワークの実践的応用を実証し、性別、人種、文化的表現に関連するバイアスを明らかにする方法を示している。
論文参考訳（メタデータ） (2024-12-17T10:35:27Z)
Civiverse: A Dataset for Analyzing User Engagement with Open-Source Text-to-Image Models [0.7209758868768352]
我々は、何百万もの画像と関連するメタデータを含むCiviverseプロンプトデータセットを解析する。本稿では,テキストプロンプトのセマンティックな特徴について,プロンプト解析に着目する。本研究は, 意味的コンテンツの均質化に焦点をあてた上で, 明示的コンテンツの生成を優先する傾向を示した。
論文参考訳（メタデータ） (2024-08-10T21:41:03Z)
Dotless Representation of Arabic Text: Analysis and Modeling [1.5867166995321356]
本稿では,標準アラビア語テキスト表現の代替として,アラビア語テキストのドットレス表現を新たに提案する。本稿では,ドットレス表現がトークン化粒度と語彙サイズの関係に与える影響について検討する。標準アラビア文字表現を用いて開発された言語モデルに対して比較評価を行う。
論文参考訳（メタデータ） (2023-12-26T16:16:33Z)
Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。アラビアサデータセットの公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-09-24T19:26:53Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Multi-Lingual DALL-E Storytime [5.413638330498511]
非英語の歌や物語の高速な可視化を実現するために,DALL-Eストーリーテリングフレームワークを提案する。我々のフレームワークは、非英語テキストからのストーリーを効果的に可視化し、プロットの変化を時間とともに表現することができる。
論文参考訳（メタデータ） (2022-12-22T07:06:35Z)
Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文参考訳（メタデータ） (2022-11-07T18:31:07Z)
Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文参考訳（メタデータ） (2022-10-19T14:20:05Z)
Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文参考訳（メタデータ） (2021-08-07T19:01:40Z)
A Framework and Dataset for Abstract Art Generation via CalligraphyGAN [0.0]
本研究では,コンディショナル・ジェネレーティブ・アドバイザリ・ネットワークと文脈ニューラル言語モデルに基づく創造的枠組みを提示し,抽象アートワークを生成する。私たちの作品は中国書道に触発され、字そのものが美的絵画である独特の視覚芸術形式である。
論文参考訳（メタデータ） (2020-12-02T16:24:20Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。