論文の概要: Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs
- arxiv url: http://arxiv.org/abs/2402.07938v2
- Date: Tue, 16 Apr 2024 07:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:05:59.055444
- Title: Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs
- Title(参考訳): 大規模言語ユーザインタフェース:LLMを利用した音声対話型ユーザインタフェース
- Authors: Syed Mekael Wasti, Ken Q. Pu, Ali Neshati,
- Abstract要約: ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
- 参考スコア(独自算出の注目度): 5.06113628525842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of Large Language Models (LLMs) has showcased remarkable capacities for logical reasoning and natural language comprehension. These capabilities can be leveraged in solutions that semantically and textually model complex problems. In this paper, we present our efforts toward constructing a framework that can serve as an intermediary between a user and their user interface (UI), enabling dynamic and real-time interactions. We employ a system that stands upon textual semantic mappings of UI components, in the form of annotations. These mappings are stored, parsed, and scaled in a custom data structure, supplementary to an agent-based prompting backend engine. Employing textual semantic mappings allows each component to not only explain its role to the engine but also provide expectations. By comprehending the needs of both the user and the components, our LLM engine can classify the most appropriate application, extract relevant parameters, and subsequently execute precise predictions of the user's expected actions. Such an integration evolves static user interfaces into highly dynamic and adaptable solutions, introducing a new frontier of intelligent and responsive user experiences.
- Abstract(参考訳): LLM(Large Language Models)の進化は、論理的推論と自然言語理解に顕著な能力を示した。
これらの機能は、意味論的およびテキスト的に複雑な問題をモデル化するソリューションで活用することができる。
本稿では,ユーザとユーザインターフェース(UI)の仲介として機能し,動的かつリアルタイムなインタラクションを実現するフレームワークの構築に向けた取り組みについて述べる。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
これらのマッピングは、エージェントベースのプロンプトバックエンドエンジンへの補足として、カスタムデータ構造に格納され、解析され、スケールされます。
テキストセマンティックマッピングを利用することで、各コンポーネントはその役割をエンジンに説明できるだけでなく、期待もできる。
ユーザとコンポーネントの両方のニーズを理解することで、LLMエンジンは最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行できます。
このような統合は、静的ユーザインターフェースを高度に動的で適応可能なソリューションに進化させ、インテリジェントでレスポンシブなユーザエクスペリエンスの新たなフロンティアを導入します。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - PROMISE: A Framework for Developing Complex Conversational Interactions (Technical Report) [33.7054351451505]
本稿では,情報システムとの複雑な言語によるインタラクションを開発するためのフレームワークであるPROMISEを提案する。
本稿では、健康情報システムにおけるアプリケーションシナリオの文脈におけるPROMISEの利点を示し、複雑なインタラクションを扱う能力を示す。
論文 参考訳(メタデータ) (2023-12-06T18:59:11Z) - Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized
Model Responses [35.74453152447319]
ExploreLLMは、ユーザが思考を構造化し、さまざまな選択肢を探索し、選択とレコメンデーションをナビゲートし、よりパーソナライズされたレスポンスを生成するために、より簡単にモデルをステアリングすることを可能にする。
本研究では,探索的・計画的なタスクにExploreLLMを使うことが有用であることを示す。
この研究は、ExploreLLMで高レベルな好みで応答をより簡単にパーソナライズできることを示唆している。
論文 参考訳(メタデータ) (2023-12-01T18:31:28Z) - Interpreting User Requests in the Context of Natural Language Standing
Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。
NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文 参考訳(メタデータ) (2023-11-16T11:19:26Z) - Dialogue-based generation of self-driving simulation scenarios using
Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。
現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。
簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文 参考訳(メタデータ) (2023-10-26T13:07:01Z) - AmadeusGPT: a natural language interface for interactive animal
behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。
MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。
アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文 参考訳(メタデータ) (2023-07-10T19:15:17Z) - Query Understanding in the Age of Large Language Models [6.630482733703617]
大規模言語モデル(LLM)を用いた対話型クエリ書き換えのための汎用フレームワークについて述べる。
我々のフレームワークの重要な側面は、自然言語で検索エンジンによって機械の意図を完全に指定できるリライタの能力である。
この対話型クエリ理解フレームワークに対するオープンな質問とともに、最初の実験を背景としたコンセプトを詳述する。
論文 参考訳(メタデータ) (2023-06-28T08:24:14Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Intent Features for Rich Natural Language Understanding [7.522454850008495]
ダイアログシステムにおける複雑な自然言語理解モジュールは、ユーザの発話をより深く理解する。
これらのモデルはしばしば、特定のクライアントやユースケースのためにスクラッチから作成され、大きなデータセットのアノテーションを必要とする。
シンタクティック・キューからのみ学ぶことができる意図のドメインとトピックに依存しない特性という意図的特徴のアイデアを紹介します。
論文 参考訳(メタデータ) (2021-04-18T03:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。