論文の概要: SAGE: Smart home Agent with Grounded Execution
- arxiv url: http://arxiv.org/abs/2311.00772v1
- Date: Wed, 1 Nov 2023 18:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:52:48.834546
- Title: SAGE: Smart home Agent with Grounded Execution
- Title(参考訳): SAGE: 接地実行によるスマートホームエージェント
- Authors: Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam
Sigal, Steve Liu, Greg Dudek
- Abstract要約: SAGEはスマートホームアシスタントの柔軟性を最大化するように設計されたフレームワークである。
ツールのコレクションのオーケストレーションを通じて、ユーザの好みやデバイス状態、外部要因に関する情報を統合する。
- 参考スコア(独自算出の注目度): 1.5256015470528725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article introduces SAGE (Smart home Agent with Grounded Execution), a
framework designed to maximize the flexibility of smart home assistants by
replacing manually-defined inference logic with an LLM-powered autonomous agent
system. SAGE integrates information about user preferences, device states, and
external factors (such as weather and TV schedules) through the orchestration
of a collection of tools. SAGE's capabilities include learning user preferences
from natural-language utterances, interacting with devices by reading their API
documentation, writing code to continuously monitor devices, and understanding
natural device references. To evaluate SAGE, we develop a benchmark of 43
highly challenging smart home tasks, where SAGE successfully achieves 23 tasks,
significantly outperforming existing LLM-enabled baselines (5/43).
- Abstract(参考訳): 本稿では,手動で定義した推論ロジックをLLMによる自律エージェントシステムに置き換えることで,スマートホームアシスタントの柔軟性を最大化するフレームワークであるSAGE(Smart Home Agent with Grounded Execution)を紹介する。
SAGEは、ツールのコレクションのオーケストレーションを通じて、ユーザの好み、デバイス状態、外部要因(天気やテレビのスケジュールなど)に関する情報を統合する。
SAGEの機能には、自然言語の発話からユーザの好みを学ぶこと、APIドキュメントを読んでデバイスと対話すること、デバイスを継続的に監視するためのコードを書くこと、そして自然言語のデバイス参照を理解することが含まれる。
SAGEを評価するために、SAGEは23のタスクを達成し、既存のLCM対応ベースライン(5/43)を大幅に上回る43の高難易度なスマートホームタスクのベンチマークを開発した。
関連論文リスト
- MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Human-Centered LLM-Agent User Interface: A Position Paper [8.675534401018407]
大規模言語モデル (LLM) - ループ内でのアプリケーションは、人間のコマンドを効果的に解釈できることが示されている。
基盤となるツールやシステムにほとんど無知なユーザは、LAUIを使って創発的なワークフローを見つけることができるべきです。
論文 参考訳(メタデータ) (2024-05-19T13:02:45Z) - GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications [46.85306320942487]
大きな言語モデル(LLM)は、ツールに積極的に関与し、現実世界のアプリケーションやサービスでアクションを実行するために進化しています。
現在、人間はLLM生成した出力の正確さと適切性を検証し、それらを実世界の実行に投入している。
コードの理解は、悪名高いほど難しいことで知られています。
本稿では,人類が将来,自律LLMと効率的に協力し,委譲し,監督する方法について検討する。
論文 参考訳(メタデータ) (2024-04-10T11:17:33Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large
Language Models [14.015334285802725]
より自然なコミュニケーションでは、人間のスピーチは制約がなく、特定のターゲットデバイスやそれらのデバイスに対処するアクションを示すのではなく、目標を記述する。
現在のシステムは、人間の状況に関連するデバイスや設定を推論できないため、これらの未特定コマンドを理解できない。
我々は,この問題空間に大規模言語モデル(LLM)を導入し,スマートホームにおける不特定ユーザコマンドへの対応として,デバイス制御と自動化ルーチン作成に利用することを検討した。
論文 参考訳(メタデータ) (2023-05-16T20:52:04Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - "Get ready for a party": Exploring smarter smart spaces with help from
large language models [9.62814345236243]
近年のタスクに依存しない大規模言語モデル(LLM)は,膨大な量のクロスドメイン,時には予測不可能なコンテキスト知識を具現化している。
我々の研究は、スマート環境における文脈認識のためのLLM駆動システムの実現を示唆している。
論文 参考訳(メタデータ) (2023-03-24T16:51:08Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。