論文の概要: Frontend Diffusion: Exploring Intent-Based User Interfaces through Abstract-to-Detailed Task Transitions
- arxiv url: http://arxiv.org/abs/2408.00778v1
- Date: Tue, 16 Jul 2024 20:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:28:21.261048
- Title: Frontend Diffusion: Exploring Intent-Based User Interfaces through Abstract-to-Detailed Task Transitions
- Title(参考訳): フロントエンド拡散: 抽象的から詳細なタスク遷移によるインテントベースのユーザインタフェースの探索
- Authors: Qinshi Zhang, Latisha Besariani Hendra, Mohan Chi, Zijian Ding,
- Abstract要約: ユーザスケッチから高品質なWebサイトを生成するエンドツーエンドツールであるFrontend Diffusionを紹介した。
複雑なタスクにおける人的介入やコミュニケーションコストを低減するために,タスク遷移の可能性を示す。
- 参考スコア(独自算出の注目度): 1.845645938093348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Generative AI is catalyzing a paradigm shift in user interfaces from command-based to intent-based outcome specification. In this paper, we explore abstract-to-detailed task transitions in the context of frontend code generation as a step towards intent-based user interfaces, aiming to bridge the gap between abstract user intentions and concrete implementations. We introduce Frontend Diffusion, an end-to-end LLM-powered tool that generates high-quality websites from user sketches. The system employs a three-stage task transition process: sketching, writing, and coding. We demonstrate the potential of task transitions to reduce human intervention and communication costs in complex tasks. Our work also opens avenues for exploring similar approaches in other domains, potentially extending to more complex, interdependent tasks such as video production.
- Abstract(参考訳): Generative AIの出現は、コマンドベースのユーザインターフェースからインテントベースの結果仕様へのパラダイムシフトを引き起こしている。
本稿では,ユーザインタフェースの抽象化と具体的実装のギャップを埋めることを目的として,フロントエンドコード生成の文脈における抽象的から詳細的なタスク遷移を,意図に基づくユーザインタフェースへのステップとして検討する。
本稿では,ユーザスケッチから高品質なWebサイトを生成する,エンドツーエンドのLDMツールであるFrontend Diffusionを紹介する。
このシステムは、スケッチ、書き込み、コーディングという3段階のタスク遷移プロセスを採用している。
複雑なタスクにおける人的介入やコミュニケーションコストを低減するために,タスク遷移の可能性を示す。
我々の研究は、他のドメインで同様のアプローチを探求するための道を開き、ビデオ制作のようなより複雑で相互依存的なタスクにまで拡張する可能性がある。
関連論文リスト
- AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation [17.279875204729553]
Zero-Shot Object Navigation (ZSON)は、エージェントが未知の環境でオープン語彙オブジェクトへナビゲートすることを可能にする。
ZIPONでは、ユーザーとの会話をしながら、ロボットがパーソナライズされた目標オブジェクトにナビゲートする必要がある。
我々は、知覚、ナビゲーション、コミュニケーションのための異なるモジュールを操作するためのシーケンシャルな決定を行うために、Open-woRld Interactive persOnalized Navigation (ORION)を提案する。
論文 参考訳(メタデータ) (2023-10-12T01:17:56Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。