論文の概要: Thoughtful Things: Building Human-Centric Smart Devices with Small Language Models
- arxiv url: http://arxiv.org/abs/2405.03821v1
- Date: Mon, 6 May 2024 20:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:04:44.958041
- Title: Thoughtful Things: Building Human-Centric Smart Devices with Small Language Models
- Title(参考訳): 興味深いこと:小さな言語モデルで人間中心のスマートデバイスを構築する
- Authors: Evan King, Haoxiang Yu, Sahil Vartak, Jenna Jacob, Sangsu Lee, Christine Julien,
- Abstract要約: 本研究では,制約のないユーザコマンドに応答して動作を記述し,動作を説明するデバイスのためのフレームワークを提案する。
当社のフレームワークはラベル付きデータを必要とせず、クラウド依存なしにデバイス上でデプロイできます。
我々は、2つの思慮深いもの(ランプとサーモスタット)を実装し、それらを実際のハードウェアにデプロイし、その実用性能を評価する。
- 参考スコア(独自算出の注目度): 11.28560308392842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Everyday devices like light bulbs and kitchen appliances are now embedded with so many features and automated behaviors that they have become complicated to actually use. While such "smart" capabilities can better support users' goals, the task of learning the "ins and outs" of different devices is daunting. Voice assistants aim to solve this problem by providing a natural language interface to devices, yet such assistants cannot understand loosely-constrained commands, they lack the ability to reason about and explain devices' behaviors to users, and they rely on connectivity to intrusive cloud infrastructure. Toward addressing these issues, we propose thoughtful things: devices that leverage lightweight, on-device language models to take actions and explain their behaviors in response to unconstrained user commands. We propose an end-to-end framework that leverages formal modeling, automated training data synthesis, and generative language models to create devices that are both capable and thoughtful in the presence of unconstrained user goals and inquiries. Our framework requires no labeled data and can be deployed on-device, with no cloud dependency. We implement two thoughtful things (a lamp and a thermostat) and deploy them on real hardware, evaluating their practical performance.
- Abstract(参考訳): 電球やキッチンアプライアンスなどのデバイスは、今では多くの機能や自動化された振る舞いが組み込まれているので、実際に使うのが難しくなってきた。
このような“スマート”な機能はユーザの目標をよりよくサポートしますが、さまざまなデバイスの“イン・アンド・アウト”を学ぶというタスクは大変なものです。
音声アシスタントは、デバイスに自然言語インターフェースを提供することでこの問題を解決することを目指しているが、そのようなアシスタントはゆるやかな制約のあるコマンドを理解できない。
これらの問題に対処するために、我々は、軽量でオンデバイスな言語モデルを活用して、制約のないユーザコマンドに応答して、アクションを処理し、それらの振る舞いを説明するデバイスという、思慮深いことを提案する。
本稿では,形式的モデリング,自動トレーニングデータ合成,生成言語モデルを活用するエンドツーエンドフレームワークを提案する。
当社のフレームワークはラベル付きデータを必要とせず、クラウド依存なしにデバイス上でデプロイできます。
我々は、2つの思慮深いもの(ランプとサーモスタット)を実装し、それらを実際のハードウェアにデプロイし、その実用性能を評価する。
関連論文リスト
- Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - Prompt-to-OS (P2OS): Revolutionizing Operating Systems and
Human-Computer Interaction with Integrated AI Generative Models [10.892991111926573]
本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのためのパラダイムを提案する。
この革新的なフレームワークでは、マシンに発行されるユーザリクエストは、生成AIモデルの相互接続エコシステムによって処理される。
このビジョンの概念は、プライバシ、セキュリティ、信頼性、生成モデルの倫理的利用など、重要な課題を提起する。
論文 参考訳(メタデータ) (2023-10-07T17:16:34Z) - Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large
Language Models [14.015334285802725]
より自然なコミュニケーションでは、人間のスピーチは制約がなく、特定のターゲットデバイスやそれらのデバイスに対処するアクションを示すのではなく、目標を記述する。
現在のシステムは、人間の状況に関連するデバイスや設定を推論できないため、これらの未特定コマンドを理解できない。
我々は,この問題空間に大規模言語モデル(LLM)を導入し,スマートホームにおける不特定ユーザコマンドへの対応として,デバイス制御と自動化ルーチン作成に利用することを検討した。
論文 参考訳(メタデータ) (2023-05-16T20:52:04Z) - Plug-and-Play Multilingual Few-shot Spoken Words Recognition [3.591566487849146]
マルチ言語・プラグイン・アンド・プレイ型キーワードスポッティングシステムであるPLiXを提案する。
私たちの数秒のディープモデルは、20言語にまたがる数百万の1秒のオーディオクリップで学習されています。
PLiX は,1つのサポート例に限らず,新規な音声単語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T18:58:14Z) - "Get ready for a party": Exploring smarter smart spaces with help from
large language models [9.62814345236243]
近年のタスクに依存しない大規模言語モデル(LLM)は,膨大な量のクロスドメイン,時には予測不可能なコンテキスト知識を具現化している。
我々の研究は、スマート環境における文脈認識のためのLLM駆動システムの実現を示唆している。
論文 参考訳(メタデータ) (2023-03-24T16:51:08Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - MetaNetwork: A Task-agnostic Network Parameters Generation Framework for
Improving Device Model Generalization [65.02542875281233]
そこで本研究では,デバイス上でのトレーニングを伴わずに,クラウドから適応的なデバイスモデルパラメータを生成するための,MetaNetworkという新しいタスク非依存フレームワークを提案する。
MetaGeneratorは、サンプルからモデルパラメータへのマッピング関数を学習するために設計されており、デバイスからクラウドにアップロードされたサンプルに基づいて、適応パラメータをデバイスに生成および配信することができる。
MetaStabilizerは、MetaGeneratorの振動を減らし、収束を加速し、トレーニングと推論の両方でモデルパフォーマンスを改善することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Natural Language Sentence Generation from API Specifications [5.192671914929481]
本稿では,意図認識モデルを訓練するための文を生成するシステムを提案する。
ヒューマン・イン・ザ・ループのインタラクションはシステムにさらなる改善をもたらすだろう。
論文 参考訳(メタデータ) (2022-06-01T15:50:14Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。