Fugu-MT 論文翻訳(概要): MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

論文の概要: MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

arxiv url: http://arxiv.org/abs/2605.06897v1
Date: Thu, 07 May 2026 19:57:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.590663
Title: MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
Title（参考訳）: MIST:スマートホーム向けマルチモーダル対話型音声対話アシスタント
Authors: Maximillian Chen, Xuanming Zhang, Michael Peng, Zhou Yu, Alexandros Papangelis, Yohan Jo,
Abstract要約: MIST(Multimodal Interactive Speech-based Tool-calling)は,IoTデバイス上で動作する合成マルチターン音声駆動型コード生成タスクである。オープンウェイト LLM とクローズドウェイト LLM の間には大きなギャップがあり、クローズドウェイト LLM にもかなりのヘッドルームがあることが判明した。
参考スコア（独自算出の注目度）: 63.12421718928034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of Internet of Things (IoT) devices in the physical world necessitates voice-based interfaces capable of handling complex user experiences. While modern Large Language Models (LLMs) already demonstrate strong tool-usage capabilities, modeling real-world IoT devices presents a difficult, understudied challenge which combines modeling spatiotemporal constraints with speech inputs, dynamic state tracking, and mixed-initiative interaction patterns. We introduce MIST (the Multimodal Interactive Speech-based Tool-calling Dataset), a synthetic multi-turn, voice-driven code generation task that operates over IoT devices. We find that there is a significant gap between open- and closed-weight multimodal LLMs on MIST, and that even frontier closed-weight LLMs have substantial headroom. We release MIST and an extensible data generation framework to build related datasets in order to facilitate research on mixed-initiative voice assistants which reason about physical world constraints.
Abstract（参考訳）: 物理世界におけるIoT(Internet of Things)デバイスの台頭は、複雑なユーザエクスペリエンスを扱うことのできる音声ベースのインターフェースを必要とする。現代のLarge Language Models(LLM)はすでに強力なツール使用機能を示しているが、現実のIoTデバイスのモデリングは、時空間制約のモデリングと音声入力、動的状態追跡、混合開始型相互作用パターンを組み合わせた、困難で未検討の課題を提示している。我々は,MIST(Multimodal Interactive Speech-based Tool-calling Dataset)を紹介した。我々は,MIST上にはオープン・クローズドウェイト・マルチモーダルLLMと,フロンティア・クローズドウェイトLLMの間には大きなギャップがあり,フロンティア・クローズドウェイトLLMにもかなりのヘッドルームがあることを見出した。我々はMISTと拡張可能なデータ生成フレームワークをリリースし、物理世界の制約を考慮に入れた混合開始型音声アシスタントの研究を容易にするために、関連するデータセットを構築する。

関連論文リスト

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。 Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文参考訳（メタデータ） (2024-12-12T17:50:39Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Language Model Can Listen While Speaking [17.584201137311286]
聴取時言語モデル (LSLM) は、聴取チャネルと発声チャネルの両方を備えたエンドツーエンドシステムである。本研究は,既存のシステムに最小限の影響を伴って,重複通信を実現するLSLMの能力を強調した。
論文参考訳（メタデータ） (2024-08-05T16:47:22Z)
A General-Purpose Device for Interaction with LLMs [3.052172365469752]
本稿では,大規模言語モデル(LLM)と高度なハードウェアの統合について検討する。我々は,LLMとの対話性の向上を目的とした汎用デバイスの開発に焦点をあてる。
論文参考訳（メタデータ） (2024-08-02T23:43:29Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。 LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文参考訳（メタデータ） (2024-04-28T16:50:12Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。