論文の概要: AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People
- arxiv url: http://arxiv.org/abs/2408.10240v1
- Date: Mon, 5 Aug 2024 01:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 14:21:10.725614
- Title: AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People
- Title(参考訳): AltCanvas: 盲人または視覚障害者のための生成AIを備えたタイルベースの画像エディタ
- Authors: Seonghee Lee, Maho Kohga, Steve Landau, Sile O'Modhrain, Hari Subramonyam,
- Abstract要約: 視覚障害のある人は、しばしば視覚要素に大きく依存するコンテンツを作成するのに苦労する。
イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。
我々の研究は、ジェネレーティブAIと建設的なアプローチを統合し、ユーザーが制御と編集能力を増強する。
- 参考スコア(独自算出の注目度): 4.41462357579624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People with visual impairments often struggle to create content that relies heavily on visual elements, particularly when conveying spatial and structural information. Existing accessible drawing tools, which construct images line by line, are suitable for simple tasks like math but not for more expressive artwork. On the other hand, emerging generative AI-based text-to-image tools can produce expressive illustrations from descriptions in natural language, but they lack precise control over image composition and properties. To address this gap, our work integrates generative AI with a constructive approach that provides users with enhanced control and editing capabilities. Our system, AltCanvas, features a tile-based interface enabling users to construct visual scenes incrementally, with each tile representing an object within the scene. Users can add, edit, move, and arrange objects while receiving speech and audio feedback. Once completed, the scene can be rendered as a color illustration or as a vector for tactile graphic generation. Involving 14 blind or low-vision users in design and evaluation, we found that participants effectively used the AltCanvas workflow to create illustrations.
- Abstract(参考訳): 視覚障害を持つ人々は、特に空間的・構造的な情報を伝達する際に、視覚要素に大きく依存するコンテンツを作成するのに苦労することが多い。
イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。
一方、新たな生成型AIベースのテキスト・ツー・イメージツールは、自然言語による記述から表現力のあるイラストを生成することができるが、画像の構成や特性を正確に制御することはできない。
このギャップに対処するため、当社の作業では、ジェネレーティブAIを建設的なアプローチに統合し、ユーザに対して、コントロールと編集機能を強化しています。
システムであるAltCanvasはタイルベースのインタフェースを備えており,各タイルはシーン内のオブジェクトを表す。
ユーザーは音声や音声のフィードバックを受けながら、オブジェクトの追加、編集、移動、アレンジできる。
一度完成すると、シーンはカラーイラストや触覚グラフィック生成のベクターとして描画できる。
視覚障害者14名を対象にデザインと評価を行った結果,参加者はAltCanvasワークフローを効果的に使用してイラストを作成していることがわかった。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Alfie: Democratising RGBA Image Generation With No $$$ [33.334956022229846]
本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。
我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
論文 参考訳(メタデータ) (2024-08-27T07:13:44Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Block and Detail: Scaffolding Sketch-to-Image Generation [65.56590359051634]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。
私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。
反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-28T07:09:31Z) - Let the Chart Spark: Embedding Semantic Context into Chart with
Text-to-Image Generative Model [7.587729429265939]
画像視覚化は、データとセマンティックコンテキストを視覚表現にシームレスに統合する。
本稿では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに組み込む新しいシステムであるChartSparkを提案する。
本研究では,テキストアナライザ,編集モジュール,評価モジュールを統合したインタラクティブなビジュアルインタフェースを開発し,画像視覚化の生成,修正,評価を行う。
論文 参考訳(メタデータ) (2023-04-28T05:18:30Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - SGDraw: Scene Graph Drawing Interface Using Object-Oriented
Representation [18.109884282338356]
オブジェクト指向シーングラフ表現を用いたシーングラフ描画インタフェースであるSGDrawを提案する。
SGDrawはより詳細なシーングラフを生成するのに役立ち、従来のバウンディングボックスアノテーションよりも正確に画像を記述することができる。
論文 参考訳(メタデータ) (2022-11-30T02:35:09Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。