Fugu-MT 論文翻訳(概要): Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs

論文の概要: Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs

arxiv url: http://arxiv.org/abs/2402.07938v1
Date: Wed, 7 Feb 2024 21:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-18 13:29:03.967365
Title: Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs
Title（参考訳）: 大規模言語ユーザインタフェース: llmsを活用した音声対話型ユーザインタフェース
Authors: Syed Mekael Wasti, Ken Q. Pu, Ali Neshati
Abstract要約: 本研究は,ユーザとユーザインターフェースの仲介として機能するフレームワークを構築するために,LCMの高機能化を図り,指導することに焦点を当てる。この統合は、静的UIシステムを高度に動的で適応可能なソリューションに進化させ、インテリジェントでレスポンシブなユーザーエクスペリエンスの新しいフロンティアを導入する。
参考スコア（独自算出の注目度）: 5.688209983513539
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent meteoric advancements in large language models have showcased a remarkable capacity for logical reasoning and comprehension. These newfound capabilities have opened the door to a new generation of software, as has been made obvious through the innumerable ways they are being applied in the industry. This research focuses on harnessing and guiding the upgraded power of LLMs to construct a framework that can serve as an intermediary between a user and their user interface. By comprehending a user's needs through a thorough analysis of natural textual inputs, an effectively crafted LLM engine can classify the most likely available application, identify the desired UI component and subsequently execute the user's expected actions. This integration can evolve static UI systems into highly dynamic and adaptable solutions, introducing a new frontier of intelligent and responsive user experiences. Such a framework can fundamentally shift how users accomplish daily tasks, skyrocket efficiency, and greatly reduce cognitive load.
Abstract（参考訳）: 近年の大規模言語モデルの発展は、論理的推論と理解の顕著な能力を示している。これらの新発見の能力は、新しい世代のソフトウェアへの扉を開き、業界で採用されている数えきれないほどの方法によって明らかになっている。本研究は,ユーザとユーザインターフェースの仲介として機能するフレームワークを構築するために,LCMの高機能化を図り,指導することに焦点を当てる。自然なテキスト入力の徹底的な分析を通じてユーザニーズを理解することで、効果的に構築されたLLMエンジンは、最も可能性の高いアプリケーションを分類し、望ましいUIコンポーネントを特定し、その後、ユーザの期待するアクションを実行することができる。この統合は、静的uiシステムを高度にダイナミックで適応可能なソリューションに進化させ、インテリジェントでレスポンシブなユーザエクスペリエンスの新しいフロンティアを導入する。このようなフレームワークは、ユーザーが日々のタスクを遂行する方法を根本的に変えることができ、効率が急上昇し、認知負荷を大幅に削減できる。

関連論文リスト

Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文参考訳（メタデータ） (2025-11-17T14:22:32Z)
HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.537908557508324]
HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文参考訳（メタデータ） (2025-09-23T02:53:38Z)
Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions [43.383726755143044]
大きな言語モデル(LLM)は、自然言語の理解とユーザ意図の解決のための変換ツールとして登場した。本研究では,複数のオープンソースおよびオープンアクセスモデルが,マシンアシストによるユーザ意図の解決を容易にする能力について検討する。
論文参考訳（メタデータ） (2025-08-29T12:17:33Z)
Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-08-26T17:43:20Z)
PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文参考訳（メタデータ） (2025-06-06T17:29:49Z)
Creating General User Models from Computer Use [62.91116265732001]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。 GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文参考訳（メタデータ） (2025-05-16T04:00:31Z)
Adaptive Orchestration of Modular Generative Information Access Systems [59.102816309859584]
将来のモジュラー生成情報アクセスシステムのアーキテクチャは、単に強力なコンポーネントを組み立てるだけでなく、自己組織化システムを実現するだろう、と我々は主張する。この観点は、IRコミュニティに適応的で自己最適化的で将来的なアーキテクチャを開発するためのモジュラーシステム設計を再考するよう促す。
論文参考訳（メタデータ） (2025-04-24T11:35:43Z)
WebNav: An Intelligent Agent for Voice-Controlled Web Navigation [0.0]
WebNavはマルチモーダルなWebナビゲーションのための新しいエージェントである。システムは、スクリーンショットからの視覚ベースのコンテキストと動的DOMラベルのブラウザ拡張を組み合わせる。
論文参考訳（メタデータ） (2025-03-18T02:33:27Z)
Unveiling User Preferences: A Knowledge Graph and LLM-Driven Approach for Conversational Recommendation [55.5687800992432]
本稿では,Large Language Models (LLMs) とKGs (KGs) を相乗化するプラグイン・アンド・プレイフレームワークを提案する。これにより、LLMはKGエンティティを簡潔な自然言語記述に変換することができ、ドメイン固有の知識を理解できるようになる。
論文参考訳（メタデータ） (2024-11-16T11:47:21Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
PROMISE: A Framework for Developing Complex Conversational Interactions (Technical Report) [33.7054351451505]
本稿では,情報システムとの複雑な言語によるインタラクションを開発するためのフレームワークであるPROMISEを提案する。本稿では、健康情報システムにおけるアプリケーションシナリオの文脈におけるPROMISEの利点を示し、複雑なインタラクションを扱う能力を示す。
論文参考訳（メタデータ） (2023-12-06T18:59:11Z)
Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses [35.74453152447319]
ExploreLLMは、ユーザが思考を構造化し、さまざまな選択肢を探索し、選択とレコメンデーションをナビゲートし、よりパーソナライズされたレスポンスを生成するために、より簡単にモデルをステアリングすることを可能にする。本研究では,探索的・計画的なタスクにExploreLLMを使うことが有用であることを示す。この研究は、ExploreLLMで高レベルな好みで応答をより簡単にパーソナライズできることを示唆している。
論文参考訳（メタデータ） (2023-12-01T18:31:28Z)
Interpreting User Requests in the Context of Natural Language Standing Instructions [89.12540932734476]
我々は17のドメインにまたがる2.4K以上の対話からなる言語とプログラムのデータセットであるNLSIを開発した。 NLSIの鍵となる課題は、ある対話に適用可能なスタンディング命令のサブセットを特定することである。
論文参考訳（メタデータ） (2023-11-16T11:19:26Z)
Dialogue-based generation of self-driving simulation scenarios using Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文参考訳（メタデータ） (2023-10-26T13:07:01Z)
AmadeusGPT: a natural language interface for interactive animal behavioral analysis [65.55906175884748]
動作の自然言語記述をマシン実行可能なコードに変換する自然言語インタフェースであるAmadeusGPTを紹介する。 MABE 2022の動作課題タスクで最先端のパフォーマンスを実現できることを示す。アマデウスGPTは、深い生物学的知識、大規模言語モデル、そしてコアコンピュータビジョンモジュールをより自然に知的なシステムに統合する新しい方法を提示している。
論文参考訳（メタデータ） (2023-07-10T19:15:17Z)
Query Understanding in the Age of Large Language Models [6.630482733703617]
大規模言語モデル(LLM)を用いた対話型クエリ書き換えのための汎用フレームワークについて述べる。我々のフレームワークの重要な側面は、自然言語で検索エンジンによって機械の意図を完全に指定できるリライタの能力である。この対話型クエリ理解フレームワークに対するオープンな質問とともに、最初の実験を背景としたコンセプトを詳述する。
論文参考訳（メタデータ） (2023-06-28T08:24:14Z)
PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文参考訳（メタデータ） (2023-01-31T18:59:22Z)
Neural Abstructions: Abstractions that Support Construction for Grounded Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文参考訳（メタデータ） (2021-07-20T07:01:15Z)
Intent Features for Rich Natural Language Understanding [7.522454850008495]
ダイアログシステムにおける複雑な自然言語理解モジュールは、ユーザの発話をより深く理解する。これらのモデルはしばしば、特定のクライアントやユースケースのためにスクラッチから作成され、大きなデータセットのアノテーションを必要とする。シンタクティック・キューからのみ学ぶことができる意図のドメインとトピックに依存しない特性という意図的特徴のアイデアを紹介します。
論文参考訳（メタデータ） (2021-04-18T03:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。