論文の概要: With One Voice: Composing a Travel Voice Assistant from Re-purposed
Models
- arxiv url: http://arxiv.org/abs/2108.11463v1
- Date: Wed, 4 Aug 2021 10:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 12:08:26.787561
- Title: With One Voice: Composing a Travel Voice Assistant from Re-purposed
Models
- Title(参考訳): 1つの声で:旅行用音声アシスタントを改造したモデル
- Authors: Shachaf Poran, Gil Amsalem, Amit Beka, Dmitri Goldenberg
- Abstract要約: 音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。
Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。
本論文は、既存の再目的モデルに対して、専用のテーラーメイドソリューションにおいて達成された性能と開発努力を比較した。
- 参考スコア(独自算出の注目度): 0.7742297876120561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants provide users a new way of interacting with digital
products, allowing them to retrieve information and complete tasks with an
increased sense of control and flexibility. Such products are comprised of
several machine learning models, like Speech-to-Text transcription, Named
Entity Recognition and Resolution, and Text Classification. Building a voice
assistant from scratch takes the prolonged efforts of several teams
constructing numerous models and orchestrating between components. Alternatives
such as using third-party vendors or re-purposing existing models may be
considered to shorten time-to-market and development costs. However, each
option has its benefits and drawbacks. We present key insights from building a
voice search assistant for Booking.com search and recommendation system. Our
paper compares the achieved performance and development efforts in dedicated
tailor-made solutions against existing re-purposed models. We share and discuss
our data-driven decisions about implementation trade-offs and their estimated
outcomes in hindsight, showing that a fully functional machine learning product
can be built from existing models.
- Abstract(参考訳): 音声アシスタントは、ユーザーがデジタル製品と対話する新しい方法を提供する。
このような製品は、音声からテキストへの書き起こし、名前付きエンティティ認識と解決、テキスト分類など、いくつかの機械学習モデルで構成されている。
音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。
サードパーティベンダの使用や既存モデルの再提案といった代替手段は、市場投入時間や開発コストを短縮すると考えられる。
しかし、それぞれの選択肢には利点と欠点がある。
Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。
本稿は,既存の汎用モデルに対する専用ソリューションの性能と開発実績を比較したものである。
我々は、実装のトレードオフとその推定結果に関するデータ駆動決定を後から見て議論し、完全に機能する機械学習製品が既存のモデルから構築できることを示す。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual
Representation Models [94.36745306051202]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive
Instruction-Tuning Benchmark for Speech [110.03854819655098]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative
Dialogue with LLM [2.2894985490441377]
本稿では,テキスト・ツー・イメージ・プロンプトのステップ・バイ・ステップ作成を可能にする新しい混合開始システムであるPromptCrafterを紹介する。
反復的なプロセスを通じて、ユーザーはモデルの能力を効率的に探求し、その意図を明らかにすることができる。
PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
論文 参考訳(メタデータ) (2023-07-18T05:51:00Z) - FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。
FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文 参考訳(メタデータ) (2023-05-18T14:45:09Z) - AARGH! End-to-end Retrieval-Generation for Task-Oriented Dialog [3.42658286826597]
AARGHは、単一モデルにおける検索と生成のアプローチを組み合わせたエンドツーエンドのタスク指向対話システムである。
提案手法は,状態追跡とコンテキスト・ツー・レスポンス生成性能を維持・改善しながら,より多様な出力を生成する。
論文 参考訳(メタデータ) (2022-09-08T08:15:22Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z) - An End-to-End ML System for Personalized Conversational Voice Models in
Walmart E-Commerce [10.40608530058899]
対話型音声コマースのためのエンド・ツー・エンドの機械学習システムを提案する。
モデルへの暗黙的なフィードバック、モデルのトレーニング、アップデートの評価、リアルタイム推論エンジンのためのコンポーネントが含まれています。
弊社のシステムは、Walmart Groceryの顧客のための音声ショッピングをパーソナライズしており、現在Google Assistant、Siri、Google Homeデバイスで利用できる。
論文 参考訳(メタデータ) (2020-11-02T10:14:55Z) - SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine
Teaching [81.45928589522032]
トランスフォーマーに基づく自動回帰言語モデルを用いて,モジュール型タスク指向対話システムをパラメータ化する。
タスクグラウンド応答生成モデルである異種ダイアログコーパスの事前学習を行う。
実験により、SOLOISTは、よく研究されたタスク指向のダイアログベンチマーク上で、新しい最先端のダイアログを生成する。
論文 参考訳(メタデータ) (2020-05-11T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。