論文の概要: "Get ready for a party": Exploring smarter smart spaces with help from
large language models
- arxiv url: http://arxiv.org/abs/2303.14143v1
- Date: Fri, 24 Mar 2023 16:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:32:58.488165
- Title: "Get ready for a party": Exploring smarter smart spaces with help from
large language models
- Title(参考訳): パーティーの準備」:大規模言語モデルの助けを借りてスマートなスマートスペースを探る
- Authors: Evan King, Haoxiang Yu, Sangsu Lee, and Christine Julien
- Abstract要約: 近年のタスクに依存しない大規模言語モデル(LLM)は,膨大な量のクロスドメイン,時には予測不可能なコンテキスト知識を具現化している。
我々の研究は、スマート環境における文脈認識のためのLLM駆動システムの実現を示唆している。
- 参考スコア(独自算出の注目度): 9.62814345236243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The right response to someone who says "get ready for a party" is deeply
influenced by meaning and context. For a smart home assistant (e.g., Google
Home), the ideal response might be to survey the available devices in the home
and change their state to create a festive atmosphere. Current practical
systems cannot service such requests since they require the ability to (1)
infer meaning behind an abstract statement and (2) map that inference to a
concrete course of action appropriate for the context (e.g., changing the
settings of specific devices). In this paper, we leverage the observation that
recent task-agnostic large language models (LLMs) like GPT-3 embody a vast
amount of cross-domain, sometimes unpredictable contextual knowledge that
existing rule-based home assistant systems lack, which can make them powerful
tools for inferring user intent and generating appropriate context-dependent
responses during smart home interactions. We first explore the feasibility of a
system that places an LLM at the center of command inference and action
planning, showing that LLMs have the capacity to infer intent behind vague,
context-dependent commands like "get ready for a party" and respond with
concrete, machine-parseable instructions that can be used to control smart
devices. We furthermore demonstrate a proof-of-concept implementation that puts
an LLM in control of real devices, showing its ability to infer intent and
change device state appropriately with no fine-tuning or task-specific
training. Our work hints at the promise of LLM-driven systems for
context-awareness in smart environments, motivating future research in this
area.
- Abstract(参考訳): パーティーの準備ができている」と言う人に対する正しい反応は、意味と文脈に深く影響されている。
スマートホームアシスタント(例えばgoogle home)にとって、理想的な反応は、家庭で利用可能なデバイスを調査し、その状態を変えてお祝いの雰囲気を作り出すことだ。
現在の実用的なシステムでは,(1)抽象文の背後にある意味を推測する機能,(2)その推論をコンテキスト(例えば,特定のデバイスの設定を変更する)に適した具体的な行動コースにマップする機能が必要となるため,そのような要求を処理できない。
本稿では、GPT-3のような最近のタスク非依存の大規模言語モデル(LLM)が、既存のルールベースのホームアシスタントシステムに欠けている、膨大な量のクロスドメイン、時には予測不可能な文脈的知識を具現化しているという観察を活用する。
まず、LLMをコマンド推論とアクション計画の中心に配置するシステムの実現可能性について検討し、LCMが「パーティーの準備が整う」といったあいまいでコンテキスト依存的なコマンドの背後にある意図を推論し、スマートデバイスを制御するために使用できる具体的な機械パース可能な命令に応答する能力を示す。
さらに、LLMが実際のデバイスを制御するための概念実証を行い、微調整やタスク固有の訓練を伴わずに、意図を推論し、デバイス状態を適切に変更する能力を示す。
我々の研究は、スマート環境における文脈認識のためのLLM駆動システムの実現を示唆し、この分野における今後の研究を動機付けている。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - SAGE: Smart home Agent with Grounded Execution [1.5256015470528725]
SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、制限を克服する。
これらのアクションは、情報検索、ユーザとのインタラクション、デバイス状態の操作に使用することができる。
我々は,SAGEが75%の成功率を達成したスマートホームタスク50のベンチマークを紹介する。
論文 参考訳(メタデータ) (2023-11-01T18:36:28Z) - Natural Language based Context Modeling and Reasoning for Ubiquitous
Computing with Large Language Models: A Tutorial [35.743576799998564]
大規模言語モデル(LLM)は、コンテキスト対応コンピューティングを導入してから20年が経ち、2018年以来、驚くほど急増している。
本チュートリアルでは,テキスト,プロンプト,自律エージェント(AutoAgents)の使用を実演し,LLMが文脈モデリングや推論を行うことを可能にする。
論文 参考訳(メタデータ) (2023-09-24T00:15:39Z) - Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large
Language Models [14.015334285802725]
より自然なコミュニケーションでは、人間のスピーチは制約がなく、特定のターゲットデバイスやそれらのデバイスに対処するアクションを示すのではなく、目標を記述する。
現在のシステムは、人間の状況に関連するデバイスや設定を推論できないため、これらの未特定コマンドを理解できない。
我々は,この問題空間に大規模言語モデル(LLM)を導入し,スマートホームにおける不特定ユーザコマンドへの対応として,デバイス制御と自動化ルーチン作成に利用することを検討した。
論文 参考訳(メタデータ) (2023-05-16T20:52:04Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。