論文の概要: Steering Generative Models for Accessibility: EasyRead Image Generation
- arxiv url: http://arxiv.org/abs/2603.13695v1
- Date: Sat, 14 Mar 2026 01:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.348129
- Title: Steering Generative Models for Accessibility: EasyRead Image Generation
- Title(参考訳): アクセシビリティのためのステアリング生成モデル:読みやすい画像生成
- Authors: Nicolas Dickenmann, Yanis Merzouki, Sonia Laguna, Thy Nowak-Tran, Emanuele Palumbo, Julia E. Vogt, Gerda Binder,
- Abstract要約: LoRA アダプタを用いた安定拡散モデルの微調整により EasyRead pictogram を生成するための統一パイプラインを提案する。
EasyRead pictograms には形式的定義が統一されていないため,Pictogram の品質と一貫性をベンチマークするためにEasyRead スコアを導入する。
- 参考スコア(独自算出の注目度): 14.810313193263498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: EasyRead pictograms are simple, visually clear images that represent specific concepts and support comprehension for people with intellectual disabilities, low literacy, or language barriers. The large-scale production of EasyRead content has traditionally been constrained by the cost and expertise required to manually design pictograms. In contrast, automatic generation of such images could significantly reduce production time and cost, enabling broader accessibility across digital and printed materials. However, modern diffusion-based image generation models tend to produce outputs that exhibit excessive visual detail and lack stylistic stability across random seeds, limiting their suitability for clear and consistent pictogram generation. This challenge highlights the need for methods specifically tailored to accessibility-oriented visual content. In this work, we present a unified pipeline for generating EasyRead pictograms by fine-tuning a Stable Diffusion model using LoRA adapters on a curated corpus that combines augmented samples from multiple pictogram datasets. Since EasyRead pictograms lack a unified formal definition, we introduce an EasyRead score to benchmark pictogram quality and consistency. Our results demonstrate that diffusion models can be effectively steered toward producing coherent EasyRead-style images, indicating that generative models can serve as practical tools for scalable and accessible pictogram production.
- Abstract(参考訳): EasyRead pictogramsは、特定の概念を表現し、知的障害、低リテラシー、言語障壁を持つ人々のための理解をサポートする、シンプルで視覚的に明瞭な画像である。
EasyReadコンテンツの大規模生産は、伝統的に、手動でピクトグラムを設計するために必要なコストと専門知識によって制限されてきた。
対照的に、このような画像の自動生成は、製造時間とコストを大幅に削減し、デジタルおよび印刷材料間の幅広いアクセシビリティを実現する。
しかし、現代の拡散に基づく画像生成モデルは、過剰な視覚的詳細を示す出力を生成し、ランダムシード間のスタイリスティックな安定性を欠き、鮮明で一貫したピクトグラム生成に適さない傾向にある。
この課題はアクセシビリティ指向のビジュアルコンテンツに適したメソッドの必要性を強調している。
本研究では,複数のピクトグラムデータセットからの付加サンプルを組み合わせたキュレートコーパス上で,LoRAアダプタを用いて安定拡散モデルを微調整することにより,EasyRead pictogram を生成する統一パイプラインを提案する。
EasyRead pictograms には形式的定義が統一されていないため,Pictogram の品質と一貫性をベンチマークするためにEasyRead スコアを導入する。
以上の結果から,コヒーレントな EasyRead-style 画像の生成に向けた拡散モデルの有効性が示唆された。
関連論文リスト
- Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting [60.15416769662556]
そこで本研究では,手書きサンプルの小さなセットから人型ブラシストローク生成を学習する問題について検討する。
Smooth Regularization (SmR) を用いた拡散型フレームワーク StrokeDiff を提案する。
学習したプリミティブをBézierベースの条件付けモジュールで制御可能であることを示す。
論文 参考訳(メタデータ) (2026-03-01T13:42:35Z) - Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions [33.440447854396446]
我々は、長文の字幕上で、最初のオープンソーステキスト・ツー・イメージモデルを訓練する。
長いキャプションを効率的に処理するために,DimFusionを提案する。
また,テキスト・アズ・ア・ブートネック・コンストラクション(TaBR)の評価プロトコルについても紹介する。
論文 参考訳(メタデータ) (2025-11-10T09:25:25Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [41.63451923844824]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。