論文の概要: Template-Based Text-to-Image Alignment for Language Accessibility: A Study on Visualizing Text Simplifications
- arxiv url: http://arxiv.org/abs/2510.11314v1
- Date: Mon, 13 Oct 2025 12:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.351656
- Title: Template-Based Text-to-Image Alignment for Language Accessibility: A Study on Visualizing Text Simplifications
- Title(参考訳): テンプレートに基づく言語アクセシビリティのためのテキスト・ツー・イメージアライメント:テキストの簡易化に関する一検討
- Authors: Belkiss Souayed, Sarah Ebling, Yingqiang Gao,
- Abstract要約: 本稿では,簡略化されたテキストからアクセス可能な画像を生成するための構造化視覚言語モデルを提案する。
我々は5つのプロンプトテンプレートを設計し、それぞれがアクセシビリティ制約を順守しながら、異なる空間配置を踏襲した。
その結果, Basic Object Focusプロンプトテンプレートが最もセマンティックアライメントが高いことがわかった。
- 参考スコア(独自算出の注目度): 5.834476864132889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individuals with intellectual disabilities often have difficulties in comprehending complex texts. While many text-to-image models prioritize aesthetics over accessibility, it is not clear how visual illustrations relate to text simplifications (TS) generated from them. This paper presents a structured vision-language model (VLM) prompting framework for generating accessible images from simplified texts. We designed five prompt templates, i.e., Basic Object Focus, Contextual Scene, Educational Layout, Multi-Level Detail, and Grid Layout, each following distinct spatial arrangements while adhering to accessibility constraints such as object count limits, spatial separation, and content restrictions. Using 400 sentence-level simplifications from four established TS datasets (OneStopEnglish, SimPA, Wikipedia, and ASSET), we conducted a two-phase evaluation: Phase 1 assessed prompt template effectiveness with CLIPScores, and Phase 2 involved human annotation of generated images across ten visual styles by four accessibility experts. Results show that the Basic Object Focus prompt template achieved the highest semantic alignment, indicating that visual minimalism enhances language accessibility. Expert evaluation further identified Retro style as the most accessible and Wikipedia as the most effective data source. Inter-annotator agreement varied across dimensions, with Text Simplicity showing strong reliability and Image Quality proving more subjective. Overall, our framework offers practical guidelines for accessible content generation and underscores the importance of structured prompting in AI-generated visual accessibility tools.
- Abstract(参考訳): 知的障害を持つ人は複雑な文章を理解するのに苦労することが多い。
多くのテキスト・ツー・イメージ・モデルはアクセシビリティよりも美学を優先しているが、視覚的なイラストがそれらから生成されるテキストの単純化(TS)にどのように関係するかは明らかではない。
本稿では、簡易テキストからアクセス可能な画像を生成するための構造化視覚言語モデル(VLM)を提案する。
我々は,オブジェクト数制限,空間分離,コンテンツ制限などのアクセシビリティ制約を順守しつつ,異なる空間配置に従う5つのプロンプトテンプレート,すなわち,基本オブジェクトフォーカス,コンテキストシーン,教育レイアウト,マルチレベルディテール,グリッドレイアウトを設計した。
確立された4つのTSデータセット(OneStop English, SimPA, Wikipedia, ASSET)から400の文レベルの単純化を用いて2段階評価を行った。
The Basic Object Focus prompt template achieved the highest semantic alignment, showed that visual minimalism enhances language accessibility。
専門家による評価では、Retroスタイルを最もアクセスしやすく、ウィキペディアを最も効果的なデータソースとして特定している。
アノテーション間の合意は寸法によって異なり、テキストの単純さは信頼性が高く、画像品質はより主観的であった。
全体として、我々のフレームワークは、アクセス可能なコンテンツ生成のための実践的なガイドラインを提供し、AI生成した視覚的アクセシビリティツールにおける構造化プロンプトの重要性を強調している。
関連論文リスト
- SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - ImageSet2Text: Describing Sets of Images through Text [17.336422962134918]
画像集合の自然言語記述を自動的に生成するために、視覚言語基盤モデルを活用する新しいアプローチであるImageSet2Textを紹介する。
ImageSet2Textは、イメージサブセットから重要な概念を反復的に抽出し、構造化グラフにエンコードし、外部知識グラフとCLIPベースの検証を使用して洞察を洗練する。
我々は、ImageSet2Textの精度、完全性、可読性、全体的な品質に関する記述を評価し、既存の視覚言語モデルと比較し、大規模なグループ画像キャプションのための新しいデータセットを導入した。
論文 参考訳(メタデータ) (2025-03-25T05:29:50Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。