論文の概要: Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU
- arxiv url: http://arxiv.org/abs/2602.15707v1
- Date: Tue, 17 Feb 2026 16:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.126048
- Title: Proactive Conversational Assistant for a Procedural Manual Task based on Audio and IMU
- Title(参考訳): 音声とIMUに基づくプロシージャマニュアルタスクのためのプロアクティブ会話アシスタント
- Authors: Rehana Mahfuz, Yinyi Guo, Erik Visser, Phanidhar Chinchili,
- Abstract要約: 本稿では,軽量なプライバシ保存モダリティのみを用いて,手続き的タスクに対する包括的ガイダンスを提供するリアルタイム対話アシスタントを提案する。
家具組み立て作業を行うユーザに対して、ステップバイステップの指示を積極的に伝達し、ユーザの質問に答える。
- 参考スコア(独自算出の注目度): 7.116403133334644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time conversational assistants for procedural tasks often depend on video input, which can be computationally expensive and compromise user privacy. For the first time, we propose a real-time conversational assistant that provides comprehensive guidance for a procedural task using only lightweight privacy-preserving modalities such as audio and IMU inputs from a user's wearable device to understand the context. This assistant proactively communicates step-by-step instructions to a user performing a furniture assembly task, and answers user questions. We construct a dataset containing conversations where the assistant guides the user in performing the task. On observing that an off-the-shelf language model is a very talkative assistant, we design a novel User Whim Agnostic (UWA) LoRA finetuning method which improves the model's ability to suppress less informative dialogues, while maintaining its tendency to communicate important instructions. This leads to >30% improvement in the F-score. Finetuning the model also results in a 16x speedup by eliminating the need to provide in-context examples in the prompt. We further describe how such an assistant is implemented on edge devices with no dependence on the cloud.
- Abstract(参考訳): プロシージャタスクのためのリアルタイムの会話アシスタントは、しばしばビデオ入力に依存し、計算コストが高く、ユーザのプライバシーを侵害する可能性がある。
本稿では,ユーザのウェアラブルデバイスからの音声やIMU入力などの軽量なプライバシ保護のみを用いて,プロシージャタスクの包括的なガイダンスを提供するリアルタイム対話アシスタントを提案する。
家具組み立て作業を行うユーザに対して、ステップバイステップの指示を積極的に伝達し、ユーザの質問に答える。
我々は,タスク実行時にユーザを案内する会話を含むデータセットを構築した。
市販の言語モデルが非常に話し合うアシスタントであることを確認する上で、重要な指示を伝達する傾向を維持しつつ、より少ない情報対話を抑える能力を向上させる新しいユーザホイッム・アグノスティック(UWA) LoRAファインタニング手法を設計する。
これによりFスコアは30%向上した。
モデルを微調整すると、プロンプトでコンテキスト内例を提供する必要がなくなるため、16倍のスピードアップがもたらされる。
さらに、このようなアシスタントがクラウドに依存しないエッジデバイス上でどのように実装されるかを述べる。
関連論文リスト
- StepWrite: Adaptive Planning for Speech-Driven Text Generation [18.286742472385633]
StepWriteは、大規模な言語モデルによる音声ベースのインタラクションシステムである。
移動中に長文の構造化、ハンズフリー、目のない合成を可能にする。
コンテキストトラッキングと適応計画タスクをモデルにオフロードすることで、認知負荷を低減する。
論文 参考訳(メタデータ) (2025-08-06T01:50:17Z) - Creating General User Models from Computer Use [53.59999173952482]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - LLAMAPIE: Proactive In-Ear Conversation Assistants [9.312108526830665]
我々はLlamaPIEを紹介した。LlamaPIEは、可聴デバイスを介して配信される離散的、簡潔なガイダンスを通じて、人間の会話を強化するために設計された最初のリアルタイムプロアクティブアシスタントである。
明示的なユーザ呼び出しを必要とする従来の言語モデルとは異なり、このアシスタントはバックグラウンドで動作し、会話を中断することなくユーザニーズを予測している。
論文 参考訳(メタデータ) (2025-05-07T02:08:56Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Context-dependent Instruction Tuning for Dialogue Response Generation [61.21790201307179]
最近の言語モデルは、微調整中にタスク入力に命令を組み込むことで、自然言語計算タスクにおいて顕著なパフォーマンスを実現している。
マルチターン対話のためのコンテキストベース命令微調整フレームワークを提案する。
評価中、モデルは以前の文脈に基づいて指示を生成し、応答を自己導出する。
論文 参考訳(メタデータ) (2023-11-13T01:25:30Z) - Rewriting the Script: Adapting Text Instructions for Voice Interaction [39.54213483588498]
音声アシスタントが複雑なタスクガイダンスにもたらす支配的アプローチの限界について検討する。
そこで本稿では,音声アシスタントが音声対話を通じて容易にコミュニケーションできる形態に変換できる8つの方法を提案する。
論文 参考訳(メタデータ) (2023-06-16T17:43:00Z) - NaRLE: Natural Language Models using Reinforcement Learning with Emotion
Feedback [0.37277730514654556]
NARLEは、対話システムの自然言語理解を改善するためのフレームワークである。
2つの意図的分類問題に対して、事前学習された教師付き学習モデルの微調整に強化学習を用いることで、最大43%の性能を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-05T16:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。