論文の概要: Composable Prompting Workspaces for Creative Writing: Exploration and Iteration Using Dynamic Widgets
- arxiv url: http://arxiv.org/abs/2503.21394v1
- Date: Thu, 27 Mar 2025 11:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:52.059398
- Title: Composable Prompting Workspaces for Creative Writing: Exploration and Iteration Using Dynamic Widgets
- Title(参考訳): 創造的記述のための構成可能なプロンプティングワークスペース:動的ウィジェットを用いた探索とイテレーション
- Authors: Rifat Mehreen Amin, Oliver Hans Kühle, Daniel Buschek, Andreas Butz,
- Abstract要約: 動的ウィジェットを用いたテキスト探索のためのコンポーザブルプロンプトキャンバスを提案する。
ユーザーはシステム提案、プロンプト、手動でタスク関連ファセットをキャプチャすることでウィジェットを生成する。
われわれのデザインはCreative Support Indexのベースラインを大きく上回った。
- 参考スコア(独自算出の注目度): 25.41215417987532
- License:
- Abstract: Generative AI models offer many possibilities for text creation and transformation. Current graphical user interfaces (GUIs) for prompting them lack support for iterative exploration, as they do not represent prompts as actionable interface objects. We propose the concept of a composable prompting canvas for text exploration and iteration using dynamic widgets. Users generate widgets through system suggestions, prompting, or manually to capture task-relevant facets that affect the generated text. In a comparative study with a baseline (conversational UI), 18 participants worked on two writing tasks, creating diverse prompting environments with custom widgets and spatial layouts. They reported having more control over the generated text and preferred our system over the baseline. Our design significantly outperformed the baseline on the Creativity Support Index, and participants felt the results were worth the effort. This work highlights the need for GUIs that support user-driven customization and (re-)structuring to increase both the flexibility and efficiency of prompting.
- Abstract(参考訳): 生成AIモデルは、テキスト作成と変換に多くの可能性を提供します。
現在のグラフィカルユーザインタフェース(GUI)は、実行可能なインターフェイスオブジェクトとしてプロンプトを表現しないため、反復探索のサポートを欠いている。
本研究では,動的ウィジェットを用いたテキスト探索と反復のためのコンポーザブルプロンプトキャンバスの概念を提案する。
ユーザは、システム提案、プロンプト、あるいは手動で生成したテキストに影響を与えるタスク関連ファセットをキャプチャしてウィジェットを生成する。
ベースライン(会話UI)との比較研究では、18人の参加者が2つの書き込みタスクに取り組み、カスタムウィジェットと空間レイアウトを備えた多様なプロンプト環境を作成しました。
彼らは、生成されたテキストをより制御し、ベースラインよりも我々のシステムを好むと報告した。
私たちのデザインはCreative Support Indexのベースラインを大きく上回りました。
この作業は、ユーザ主導のカスタマイズと(再)構造化をサポートするGUIの必要性を強調し、プロンプトの柔軟性と効率性を向上させる。
関連論文リスト
- Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Towards Full Authorship with AI: Supporting Revision with AI-Generated
Views [3.109675063162349]
大きな言語モデル(LLM)は、ユーザーがプロンプトを通じてテキストを生成できるようにすることで、ツールを書く際に新しいユーザーインターフェイス(UI)パラダイムを形作っている。
このパラダイムは、ユーザからシステムへの創造的なコントロールを移行することで、書き込みプロセスにおけるユーザのオーサシップと自律性を低下させる。
テキストフォーカス(Textfocals)は,文章作成におけるユーザの役割を強調する,人間中心のアプローチを調査するためのプロトタイプである。
論文 参考訳(メタデータ) (2024-03-02T01:11:35Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative
Dialogue with LLM [2.2894985490441377]
本稿では,テキスト・ツー・イメージ・プロンプトのステップ・バイ・ステップ作成を可能にする新しい混合開始システムであるPromptCrafterを紹介する。
反復的なプロセスを通じて、ユーザーはモデルの能力を効率的に探求し、その意図を明らかにすることができる。
PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
論文 参考訳(メタデータ) (2023-07-18T05:51:00Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z) - Contextual Dynamic Prompting for Response Generation in Task-oriented
Dialog Systems [8.419582942080927]
応答生成はタスク指向対話システムにおいて重要なコンポーネントの1つである。
本稿では,対話コンテキストからプロンプトを学習するテキスト動的プロンプトを実現する手法を提案する。
文脈的動的プロンプトは,3つの絶対点で構造化されたテキスト合成スコア citemehri-etal 2019 を用いて応答生成を改善することを示す。
論文 参考訳(メタデータ) (2023-01-30T20:26:02Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。