論文の概要: LLAMAPIE: Proactive In-Ear Conversation Assistants
- arxiv url: http://arxiv.org/abs/2505.04066v1
- Date: Wed, 07 May 2025 02:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.952848
- Title: LLAMAPIE: Proactive In-Ear Conversation Assistants
- Title(参考訳): LLAMAPIE: プロアクティブな海中会話アシスタント
- Authors: Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota,
- Abstract要約: 我々はLlamaPIEを紹介した。LlamaPIEは、可聴デバイスを介して配信される離散的、簡潔なガイダンスを通じて、人間の会話を強化するために設計された最初のリアルタイムプロアクティブアシスタントである。
明示的なユーザ呼び出しを必要とする従来の言語モデルとは異なり、このアシスタントはバックグラウンドで動作し、会話を中断することなくユーザニーズを予測している。
- 参考スコア(独自算出の注目度): 9.312108526830665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LlamaPIE, the first real-time proactive assistant designed to enhance human conversations through discreet, concise guidance delivered via hearable devices. Unlike traditional language models that require explicit user invocation, this assistant operates in the background, anticipating user needs without interrupting conversations. We address several challenges, including determining when to respond, crafting concise responses that enhance conversations, leveraging knowledge of the user for context-aware assistance, and real-time, on-device processing. To achieve this, we construct a semi-synthetic dialogue dataset and propose a two-model pipeline: a small model that decides when to respond and a larger model that generates the response. We evaluate our approach on real-world datasets, demonstrating its effectiveness in providing helpful, unobtrusive assistance. User studies with our assistant, implemented on Apple Silicon M2 hardware, show a strong preference for the proactive assistant over both a baseline with no assistance and a reactive model, highlighting the potential of LlamaPie to enhance live conversations.
- Abstract(参考訳): 我々はLlamaPIEを紹介した。LlamaPIEは、可聴デバイスを介して配信される離散的、簡潔なガイダンスを通じて、人間の会話を強化するために設計された最初のリアルタイムプロアクティブアシスタントである。
明示的なユーザ呼び出しを必要とする従来の言語モデルとは異なり、このアシスタントはバックグラウンドで動作し、会話を中断することなくユーザニーズを予測している。
応答のタイミングを決定すること、会話を強化する簡潔な応答を作成すること、コンテキスト認識支援のためのユーザの知識を活用すること、リアルタイムのオンデバイス処理など、いくつかの課題に対処する。
これを実現するために, 半合成対話データセットを構築し, 応答のタイミングを決定する小さなモデルと, 応答を生成する大きなモデルである2モデルパイプラインを提案する。
実世界のデータセットに対する我々のアプローチを評価し、有用で控えめな支援を提供することの有効性を実証する。
Apple Silicon M2ハードウェア上に実装された私たちのアシスタントによるユーザスタディは、ベースラインとリアクティブモデルの両方に対して、アクティブなアシスタントを強く好んでおり、ライブ会話を強化するLlamaPieの可能性を強調しています。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。
提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。
また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文 参考訳(メタデータ) (2024-12-20T15:43:09Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - R2H: Building Multimodal Navigation Helpers that Respond to Help
Requests [30.695642371684663]
まず、マルチモーダルナビゲーションヘルパーの開発を促進するために、新しいベンチマークであるRespond to Help Requests (R2H)を導入する。
R2Hは主に2つのタスクを含む:(1)対話履歴(RDH)、(2)対話履歴に基づいて情報応答を生成するヘルパーエージェントの能力を評価する、(2)対話中の応答(RdI)、(2)タスクパフォーマーとの一貫性のある協調における応答の有効性と効率を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:12:09Z) - Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文 参考訳(メタデータ) (2022-05-30T12:41:23Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - NaRLE: Natural Language Models using Reinforcement Learning with Emotion
Feedback [0.37277730514654556]
NARLEは、対話システムの自然言語理解を改善するためのフレームワークである。
2つの意図的分類問題に対して、事前学習された教師付き学習モデルの微調整に強化学習を用いることで、最大43%の性能を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-10-05T16:24:19Z) - Adding Chit-Chat to Enhance Task-Oriented Dialogues [36.93917437554091]
Chit-Chatをタスク指向の対話に追加することで、仮想アシスタントの会話をより魅力的でインタラクティブにすることができる。
我々は,2つのタスク指向対話データセットから23.8Kの対話に,新しいチャットベースのアノテーションを提案する。
また,タスク指向対話にChit-chatを追加するための3つの新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-10-24T03:22:43Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。