論文の概要: Sasha: creative goal-oriented reasoning in smart homes with large
language models
- arxiv url: http://arxiv.org/abs/2305.09802v1
- Date: Tue, 16 May 2023 20:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:32:52.404591
- Title: Sasha: creative goal-oriented reasoning in smart homes with large
language models
- Title(参考訳): sasha: 大きな言語モデルを持つスマートホームにおける創造的目標指向推論
- Authors: Evan King, Haoxiang Yu, Sangsu Lee, Christine Julien
- Abstract要約: 既存のホームアシスタントは、例えば「明かりを点ける」といった明確な目標を容易に達成する。
より自然なコミュニケーションでは、人間は暗黙の目標を記述する傾向がある。
現在のシステムは、特定のデバイスにあいまいな意図を関連付ける必要があるため、この曖昧さに苦慮している。
- 参考スコア(独自算出の注目度): 10.518055040596376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every smart home user interaction has an explicit or implicit goal. Existing
home assistants easily achieve explicit goals, e.g., "turn on the light". In
more natural communication, however, humans tend to describe implicit goals. We
can, for example, ask someone to "make it cozy" rather than describe the
specific steps involved. Current systems struggle with this ambiguity since it
requires them to relate vague intent to specific devices. We approach this
problem of flexibly achieving user goals from the perspective of
general-purpose large language models (LLMs) trained on gigantic corpora and
adapted to downstream tasks with remarkable flexibility. We explore the use of
LLMs for controlling devices and creating automation routines to meet the
implicit goals of user commands. In a user-focused study, we find that LLMs can
reason creatively to achieve challenging goals, while also revealing gaps that
diminish their usefulness. We address these gaps with Sasha: a system for
creative, goal-oriented reasoning in smart homes. Sasha responds to commands
like "make it cozy" or "help me sleep better" by executing plans to achieve
user goals, e.g., setting a mood with available devices, or devising automation
routines. We demonstrate Sasha in a real smart home.
- Abstract(参考訳): すべてのスマートホームユーザインタラクションには、明示的あるいは暗黙的な目標がある。
既存のホームアシスタントは、例えば "turn on the light" のような明確な目標を容易に達成できる。
しかし、より自然なコミュニケーションでは、人間は暗黙の目標を記述する傾向がある。
例えば、特定のステップを記述するのではなく、誰かに"cozy"を作るように頼むことができます。
現在のシステムは、特定のデバイスに曖昧な意図を関連付ける必要があるため、この曖昧さに苦慮している。
我々は,大規模コーパスで訓練された汎用大規模言語モデル(LLM)の観点から,ユーザ目標を柔軟に達成するこの問題に対処する。
ユーザコマンドの暗黙的な目標を満たすために,デバイス制御や自動化ルーチン作成にLLMを使用する方法について検討する。
ユーザ中心の研究では、LCMは創造的に挑戦的な目標を達成すると同時に、有用性を低下させるギャップを明らかにすることができる。
sasha: スマートホームにおける創造的で目標指向の推論のためのシステムです。
Sasha氏は、“Make it cozy”や“help me sleep better”といったコマンドに応答して、ユーザ目標を達成する計画を実行している。
私たちは本物のスマートホームでsashaをデモします。
関連論文リスト
- Thoughtful Things: Building Human-Centric Smart Devices with Small Language Models [11.28560308392842]
本研究では,制約のないユーザコマンドに応答して動作を記述し,動作を説明するデバイスのためのフレームワークを提案する。
当社のフレームワークはラベル付きデータを必要とせず、クラウド依存なしにデバイス上でデプロイできます。
我々は、2つの思慮深いもの(ランプとサーモスタット)を実装し、それらを実際のハードウェアにデプロイし、その実用性能を評価する。
論文 参考訳(メタデータ) (2024-05-06T20:04:53Z) - "Task Success" is not Enough: Investigating the Use of Video-Language
Models as Behavior Critics for Catching Undesirable Agent Behaviors [24.083096164982365]
大規模生成モデルは意味のある候補解を抽出するのに有用であるが、それらはしばしばタスク制約やユーザの好みを見落としている。
具体的AIの文脈では、検証は多くの場合、命令で指定された目標条件が満たされたかどうかのみを評価する。
ロボットタスクのスコープを考えると、Goのような明示的な知識タスクに使用されるものに似たスクリプト検証を構築することは不可能である。
大きなビジョンと言語モデル(VLM)は、ビデオの中の望ましくないロボットの振る舞いを捉えるために、スケーラブルな行動批判として、ほぼ全能的なものですか?
論文 参考訳(メタデータ) (2024-02-06T18:07:43Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - SAGE: Smart home Agent with Grounded Execution [1.5256015470528725]
SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、制限を克服する。
これらのアクションは、情報検索、ユーザとのインタラクション、デバイス状態の操作に使用することができる。
我々は,SAGEが75%の成功率を達成したスマートホームタスク50のベンチマークを紹介する。
論文 参考訳(メタデータ) (2023-11-01T18:36:28Z) - CLARA: Classifying and Disambiguating User Commands for Reliable
Interactive Robotic Agents [31.037327241127283]
我々は、対話型ロボットエージェントの文脈において、与えられたユーザコマンドが明確であるか、曖昧であるか、あるいは不可能であるかを推測することに集中する。
あいまいなコマンドに対しては、質問生成を通じてユーザと対話することで、コマンドを曖昧にします。
本稿では,ロボットによる状況認識のためのデータセットについて述べる。
論文 参考訳(メタデータ) (2023-06-17T15:24:54Z) - "Get ready for a party": Exploring smarter smart spaces with help from
large language models [9.62814345236243]
近年のタスクに依存しない大規模言語モデル(LLM)は,膨大な量のクロスドメイン,時には予測不可能なコンテキスト知識を具現化している。
我々の研究は、スマート環境における文脈認識のためのLLM駆動システムの実現を示唆している。
論文 参考訳(メタデータ) (2023-03-24T16:51:08Z) - Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。
このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。
大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文 参考訳(メタデータ) (2023-02-13T21:16:03Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。