論文の概要: Expanding the Generative AI Design Space through Structured Prompting and Multimodal Interfaces
- arxiv url: http://arxiv.org/abs/2504.14320v2
- Date: Tue, 22 Apr 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 11:56:10.75897
- Title: Expanding the Generative AI Design Space through Structured Prompting and Multimodal Interfaces
- Title(参考訳): 構造化プロンプティングとマルチモーダルインタフェースによる生成AI設計空間の拡大
- Authors: Nimisha Karnatak, Adrien Baranes, Rob Marchant, Huinan Zeng, Tríona Butler, Kristen Olson,
- Abstract要約: ACAI(AI Co-Creation for Advertising and Inspiration)は、初心者デザイナを支援するために設計された、従来のプロンプトインターフェースを超えた多モード生成AIツールである。
この研究は、構造化インターフェイスがユーザ定義コンテキストをフォアグラウンドし、アライメントを改善し、初歩的な創造性において共創造的制御を強化する方法を示すことによって、生成システムに関するHCI研究に寄与する。
- 参考スコア(独自算出の注目度): 1.051328497890725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based prompting remains the predominant interaction paradigm in generative AI, yet it often introduces friction for novice users such as small business owners (SBOs), who struggle to articulate creative goals in domain-specific contexts like advertising. Through a formative study with six SBOs in the United Kingdom, we identify three key challenges: difficulties in expressing brand intuition through prompts, limited opportunities for fine-grained adjustment and refinement during and after content generation, and the frequent production of generic content that lacks brand specificity. In response, we present ACAI (AI Co-Creation for Advertising and Inspiration), a multimodal generative AI tool designed to support novice designers by moving beyond traditional prompt interfaces. ACAI features a structured input system composed of three panels: Branding, Audience and Goals, and the Inspiration Board. These inputs allow users to convey brand-relevant context and visual preferences. This work contributes to HCI research on generative systems by showing how structured interfaces can foreground user-defined context, improve alignment, and enhance co-creative control in novice creative workflows.
- Abstract(参考訳): テキストベースのプロンプトは、生成AIにおける主要な相互作用パラダイムであり続けているが、広告のようなドメイン固有のコンテキストにおいて創造的な目標を明確にするのに苦労している小さなビジネスオーナー(SBO)のような初心者ユーザーには、しばしば摩擦をもたらす。
英国における6つのSBOによるフォーマティブな研究を通じて、インプロンプトによるブランド直感表現の難しさ、コンテンツ生成前後の微粒化調整や洗練の機会の制限、ブランド特異性に欠けるジェネリックコンテンツの頻繁な生産の3つの主要な課題を特定した。
これに応えて、我々は、従来のプロンプトインターフェースを超えて、初心者デザイナーを支援するために設計されたマルチモーダル生成AIツールであるACAI(AI Co-Creation for Advertising and Inspiration)を紹介する。
ACAIは、ブランディング、オーディエンス、ゴール、吸気ボードの3つのパネルで構成される構造化された入力システムを備えている。
これらの入力により、ユーザーはブランド関連コンテキストと視覚的嗜好を伝えることができる。
この研究は、構造化インターフェイスがユーザ定義コンテキストをフォアグラウンドし、アライメントを改善し、初歩的な創造的ワークフローにおける共同創造的制御を強化する方法を示すことによって、生成システムに関するHCI研究に寄与する。
関連論文リスト
- POET: Supporting Prompting Creativity and Personalization with Automated Expansion of Text-to-Image Generation [31.886910258606875]
最先端のビジュアル生成AIツールは、クリエイティブなタスクの初期のアイデア段階において、ユーザーを支援する大きな可能性を秘めている。
多くの大規模テキスト・ツー・イメージシステムは幅広い適用性のために設計されており、創造的な探索を制限するような従来の出力が得られる。
テキストから画像への生成モデルにおいて,同質性の次元を自動的に検出するリアルタイム対話型ツールPOETを紹介する。
論文 参考訳(メタデータ) (2025-04-18T00:54:36Z) - Piece it Together: Part-Based Concepting with IP-Priors [52.01640707131325]
ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-03-13T13:46:10Z) - ACAI for SBOs: AI Co-creation for Advertising and Inspiration for Small Business Owners [1.114004309769802]
スモールビジネスオーナー(SBO)は、しばしば高品質の広告を作るのに必要な資源と設計経験を欠いている。
我々は,GenAIを利用したマルチモーダル広告作成ツールであるACAI(AI Co-Creation for Advertising and Inspiration)を開発した。
ロンドンで16名のSBOを対象に,広告制作におけるACAIの認識と相互作用について調査を行った。
論文 参考訳(メタデータ) (2025-03-09T19:00:36Z) - Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.55963742878684]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。
また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文 参考訳(メタデータ) (2024-10-28T23:10:06Z) - A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System [0.0]
本稿では、初心者デザイナーを支援する創造的アイデア生成ツールとして、対話型AIを活用したアクティブなアイデア生成インタフェースを提案する。
これは動的でインタラクティブで文脈に応答するアプローチであり、人工知能(AI)における自然言語処理(NLP)の領域から大きな言語モデル(LLM)を積極的に巻き込む。
このようなAIモデルとアイデアの統合は、連続的な対話ベースのインタラクション、コンテキストに敏感な会話、多彩なアイデア生成の促進に役立つ、アクティブな理想化(Active Ideation)シナリオと呼ばれるものを生み出します。
論文 参考訳(メタデータ) (2024-09-09T16:02:27Z) - Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - How Human-Centered Explainable AI Interface Are Designed and Evaluated: A Systematic Survey [48.97104365617498]
Em Explainable Interfaces (EIs) の登場する領域は,XAI のユーザインターフェースとユーザエクスペリエンス設計に重点を置いている。
本稿では,人間とXAIの相互作用の現在の動向と,EI設計・開発に向けた将来的な方向性を明らかにするために,53の出版物を体系的に調査する。
論文 参考訳(メタデータ) (2024-03-21T15:44:56Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - The role of interface design on prompt-mediated creativity in Generative
AI [0.0]
2つのジェネレーティブAIプラットフォームから145,000以上のプロンプトを分析します。
その結果,利用者は以前訪れた概念の活用よりも,新たなトピックを探求する傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-11-30T22:33:34Z) - How to Prompt? Opportunities and Challenges of Zero- and Few-Shot
Learning for Human-AI Interaction in Creative Applications of Generative
Models [29.420160518026496]
我々は,人間-AIインタラクションの新しいパラダイムとしてプロンプトを利用するインタラクティブなクリエイティブアプリケーションのための機会と課題について論じる。
本分析に基づき,プロンプトをサポートするユーザインタフェースの設計目標を4つ提案する。
これらは、クリエイティブな記述のユースケースに焦点を当てた、具体的なUIデザインスケッチで説明します。
論文 参考訳(メタデータ) (2022-09-03T10:16:34Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。