論文の概要: SAGE: Smart home Agent with Grounded Execution
- arxiv url: http://arxiv.org/abs/2311.00772v2
- Date: Fri, 19 Jan 2024 17:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 18:40:48.279521
- Title: SAGE: Smart home Agent with Grounded Execution
- Title(参考訳): SAGE: 接地実行によるスマートホームエージェント
- Authors: Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam
Sigal, Steve Liu, Greg Dudek
- Abstract要約: SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、制限を克服する。
これらのアクションは、情報検索、ユーザとのインタラクション、デバイス状態の操作に使用することができる。
我々は,SAGEが75%の成功率を達成したスマートホームタスク50のベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 1.5256015470528725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The common sense reasoning abilities and vast general knowledge of Large
Language Models (LLMs) make them a natural fit for interpreting user requests
in a Smart Home assistant context. LLMs, however, lack specific knowledge about
the user and their home limit their potential impact. SAGE (Smart Home Agent
with Grounded Execution), overcomes these and other limitations by using a
scheme in which a user request triggers an LLM-controlled sequence of discrete
actions. These actions can be used to retrieve information, interact with the
user, or manipulate device states. SAGE controls this process through a
dynamically constructed tree of LLM prompts, which help it decide which action
to take next, whether an action was successful, and when to terminate the
process. The SAGE action set augments an LLM's capabilities to support some of
the most critical requirements for a Smart Home assistant. These include:
flexible and scalable user preference management ("is my team playing
tonight?"), access to any smart device's full functionality without
device-specific code via API reading "turn down the screen brightness on my
dryer", persistent device state monitoring ("remind me to throw out the milk
when I open the fridge"), natural device references using only a photo of the
room ("turn on the light on the dresser"), and more. We introduce a benchmark
of 50 new and challenging smart home tasks where SAGE achieves a 75% success
rate, significantly outperforming existing LLM-enabled baselines (30% success
rate).
- Abstract(参考訳): 常識推論能力と大規模言語モデル(llm)に関する膨大な知識は、スマートホームアシスタントコンテキストにおけるユーザの要求を解釈するのに自然に適しています。
しかしLLMには、ユーザとその家庭に関する具体的な知識が欠けているため、その潜在的な影響は制限される。
SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、これらの制限を克服する。
これらのアクションは、情報の取得、ユーザとのインタラクション、デバイス状態の操作に使用することができる。
SAGEはこのプロセスをLLMプロンプトの動的に構築されたツリーを通じて制御し、次にどのアクションをとるか、アクションが成功したか、いつプロセスを終了するかを決めるのに役立つ。
SAGEアクションセットはLLMの機能を強化し、スマートホームアシスタントの最も重要な要件の一部をサポートする。
フレキシブルでスケーラブルなユーザプライオリティ管理("我がチームが今夜プレイしているか?")、API経由のデバイス固有のコードなしのスマートデバイスの全機能へのアクセス、“ドライヤーの画面輝度を下げる”、永続的なデバイス状態監視(冷蔵庫を開くとミルクを捨てるように推奨する)、部屋の写真のみを使用した自然なデバイス参照("ドレスラーのライトを点灯する")、などです。
我々は、sageが75%の成功率を達成し、既存のllm対応ベースライン(30%成功率)を大きく上回る50の新しい挑戦的なスマートホームタスクのベンチマークを紹介する。
関連論文リスト
- MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Human-Centered LLM-Agent User Interface: A Position Paper [8.675534401018407]
大規模言語モデル (LLM) - ループ内でのアプリケーションは、人間のコマンドを効果的に解釈できることが示されている。
基盤となるツールやシステムにほとんど無知なユーザは、LAUIを使って創発的なワークフローを見つけることができるべきです。
論文 参考訳(メタデータ) (2024-05-19T13:02:45Z) - GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications [46.85306320942487]
大きな言語モデル(LLM)は、ツールに積極的に関与し、現実世界のアプリケーションやサービスでアクションを実行するために進化しています。
現在、人間はLLM生成した出力の正確さと適切性を検証し、それらを実世界の実行に投入している。
コードの理解は、悪名高いほど難しいことで知られています。
本稿では,人類が将来,自律LLMと効率的に協力し,委譲し,監督する方法について検討する。
論文 参考訳(メタデータ) (2024-04-10T11:17:33Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large
Language Models [14.015334285802725]
より自然なコミュニケーションでは、人間のスピーチは制約がなく、特定のターゲットデバイスやそれらのデバイスに対処するアクションを示すのではなく、目標を記述する。
現在のシステムは、人間の状況に関連するデバイスや設定を推論できないため、これらの未特定コマンドを理解できない。
我々は,この問題空間に大規模言語モデル(LLM)を導入し,スマートホームにおける不特定ユーザコマンドへの対応として,デバイス制御と自動化ルーチン作成に利用することを検討した。
論文 参考訳(メタデータ) (2023-05-16T20:52:04Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - "Get ready for a party": Exploring smarter smart spaces with help from
large language models [9.62814345236243]
近年のタスクに依存しない大規模言語モデル(LLM)は,膨大な量のクロスドメイン,時には予測不可能なコンテキスト知識を具現化している。
我々の研究は、スマート環境における文脈認識のためのLLM駆動システムの実現を示唆している。
論文 参考訳(メタデータ) (2023-03-24T16:51:08Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。