Fugu-MT 論文翻訳(概要): AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People

論文の概要: AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People

arxiv url: http://arxiv.org/abs/2408.10240v1
Date: Mon, 5 Aug 2024 01:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-25 14:21:10.725614
Title: AltCanvas: A Tile-Based Image Editor with Generative AI for Blind or Visually Impaired People
Title（参考訳）: AltCanvas: 盲人または視覚障害者のための生成AIを備えたタイルベースの画像エディタ
Authors: Seonghee Lee, Maho Kohga, Steve Landau, Sile O'Modhrain, Hari Subramonyam,
Abstract要約: 視覚障害のある人は、しばしば視覚要素に大きく依存するコンテンツを作成するのに苦労する。イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。我々の研究は、ジェネレーティブAIと建設的なアプローチを統合し、ユーザーが制御と編集能力を増強する。
参考スコア（独自算出の注目度）: 4.41462357579624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: People with visual impairments often struggle to create content that relies heavily on visual elements, particularly when conveying spatial and structural information. Existing accessible drawing tools, which construct images line by line, are suitable for simple tasks like math but not for more expressive artwork. On the other hand, emerging generative AI-based text-to-image tools can produce expressive illustrations from descriptions in natural language, but they lack precise control over image composition and properties. To address this gap, our work integrates generative AI with a constructive approach that provides users with enhanced control and editing capabilities. Our system, AltCanvas, features a tile-based interface enabling users to construct visual scenes incrementally, with each tile representing an object within the scene. Users can add, edit, move, and arrange objects while receiving speech and audio feedback. Once completed, the scene can be rendered as a color illustration or as a vector for tactile graphic generation. Involving 14 blind or low-vision users in design and evaluation, we found that participants effectively used the AltCanvas workflow to create illustrations.
Abstract（参考訳）: 視覚障害を持つ人々は、特に空間的・構造的な情報を伝達する際に、視覚要素に大きく依存するコンテンツを作成するのに苦労することが多い。イメージを並べて構築する既存の描画ツールは、数学のような単純なタスクには適しているが、表現力のあるアートワークには向いていない。一方、新たな生成型AIベースのテキスト・ツー・イメージツールは、自然言語による記述から表現力のあるイラストを生成することができるが、画像の構成や特性を正確に制御することはできない。このギャップに対処するため、当社の作業では、ジェネレーティブAIを建設的なアプローチに統合し、ユーザに対して、コントロールと編集機能を強化しています。システムであるAltCanvasはタイルベースのインタフェースを備えており,各タイルはシーン内のオブジェクトを表す。ユーザーは音声や音声のフィードバックを受けながら、オブジェクトの追加、編集、移動、アレンジできる。一度完成すると、シーンはカラーイラストや触覚グラフィック生成のベクターとして描画できる。視覚障害者14名を対象にデザインと評価を行った結果,参加者はAltCanvasワークフローを効果的に使用してイラストを作成していることがわかった。

関連論文リスト

Controlling Your Image via Simplified Vector Graphics [31.087153372906624]
単純化ベクターグラフィックス(VG)による層幅制御可能生成について紹介する。提案手法は,まず画像の階層的VG表現に効率よく解析し,セマンティックアライメントと構造的コヒーレントさを両立させる。この表現に基づいて、我々はVGによってガイドされる新しい画像合成フレームワークを設計し、ユーザーが自由に要素を編集し、これらの編集をシームレスに出力に変換することを可能にする。
論文参考訳（メタデータ） (2026-02-16T03:56:42Z)
Controllable Layered Image Generation for Real-World Editing [49.81321254149423]
LASAGNAは、その構成層と共同で画像を生成する、新しく統合されたフレームワークである。クリーンな背景とRGBAフォアグラウンドからなる新しいデータセットであるLASAGNA-48Kを紹介した。 LASAGNAは複数の画像層にまたがって高度に一貫性があり一貫性のある結果を生成するのに優れていることを示す。
論文参考訳（メタデータ） (2026-01-21T22:29:33Z)
MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues [106.02577891104079]
本稿では,生成画像編集のための合成パラダイムであるMagicQuill V2を提案する。本手法は,創造性を制御可能な視覚的手がかりのスタックに分解する。
論文参考訳（メタデータ） (2025-12-02T18:59:58Z)
Rethinking Layered Graphic Design Generation with a Top-Down Approach [76.33538798060326]
図形デザインは、アイデアやメッセージを伝えるのに不可欠である。デザイナーは通常、編集を簡単にするために、オブジェクト、背景、ベクトル化されたテキスト層に作業を整理する。 GenAI方式の登場により、ピクセルフォーマットにおける高品質なグラフィックデザインの無限の供給がよりアクセスしやすくなってきた。これにもかかわらず、非層型設計は人間の設計を刺激し、レイアウトやテキストスタイルの選択に影響を与え、最終的に層型設計を導いた。本稿では,AI生成したデザインを編集可能な階層化設計に変換する最初の試みとして,グラフィックデザイン生成フレームワークであるAccordionを提案する。
論文参考訳（メタデータ） (2025-07-08T02:26:08Z)
Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-01-02T18:59:44Z)
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文参考訳（メタデータ） (2024-09-23T17:59:46Z)
Alfie: Democratising RGBA Image Generation With No $$$ [33.334956022229846]
本稿では,事前学習した拡散変圧器モデルの推論時挙動を変化させ,RGBA図形の完全自動生成手法を提案する。我々は、デザインプロジェクトや芸術シーンへのシームレスな統合のために、背景が容易に取り除かれるシャープな刈り取りを行なわずに、被験者全体の生成を強制する。
論文参考訳（メタデータ） (2024-08-27T07:13:44Z)
Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。 IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文参考訳（メタデータ） (2024-05-31T18:22:29Z)
Block and Detail: Scaffolding Sketch-to-Image Generation [65.56590359051634]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-28T07:09:31Z)
Let the Chart Spark: Embedding Semantic Context into Chart with Text-to-Image Generative Model [7.587729429265939]
画像視覚化は、データとセマンティックコンテキストを視覚表現にシームレスに統合する。本稿では,テキストから画像への生成モデルに基づく意味コンテキストをグラフに組み込む新しいシステムであるChartSparkを提案する。本研究では,テキストアナライザ,編集モジュール,評価モジュールを統合したインタラクティブなビジュアルインタフェースを開発し,画像視覚化の生成,修正,評価を行う。
論文参考訳（メタデータ） (2023-04-28T05:18:30Z)
Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文参考訳（メタデータ） (2022-12-13T01:36:56Z)
SGDraw: Scene Graph Drawing Interface Using Object-Oriented Representation [18.109884282338356]
オブジェクト指向シーングラフ表現を用いたシーングラフ描画インタフェースであるSGDrawを提案する。 SGDrawはより詳細なシーングラフを生成するのに役立ち、従来のバウンディングボックスアノテーションよりも正確に画像を記述することができる。
論文参考訳（メタデータ） (2022-11-30T02:35:09Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文参考訳（メタデータ） (2020-04-07T20:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。