論文の概要: With One Voice: Composing a Travel Voice Assistant from Re-purposed
Models
- arxiv url: http://arxiv.org/abs/2108.11463v1
- Date: Wed, 4 Aug 2021 10:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 12:08:26.787561
- Title: With One Voice: Composing a Travel Voice Assistant from Re-purposed
Models
- Title(参考訳): 1つの声で:旅行用音声アシスタントを改造したモデル
- Authors: Shachaf Poran, Gil Amsalem, Amit Beka, Dmitri Goldenberg
- Abstract要約: 音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。
Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。
本論文は、既存の再目的モデルに対して、専用のテーラーメイドソリューションにおいて達成された性能と開発努力を比較した。
- 参考スコア(独自算出の注目度): 0.7742297876120561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants provide users a new way of interacting with digital
products, allowing them to retrieve information and complete tasks with an
increased sense of control and flexibility. Such products are comprised of
several machine learning models, like Speech-to-Text transcription, Named
Entity Recognition and Resolution, and Text Classification. Building a voice
assistant from scratch takes the prolonged efforts of several teams
constructing numerous models and orchestrating between components. Alternatives
such as using third-party vendors or re-purposing existing models may be
considered to shorten time-to-market and development costs. However, each
option has its benefits and drawbacks. We present key insights from building a
voice search assistant for Booking.com search and recommendation system. Our
paper compares the achieved performance and development efforts in dedicated
tailor-made solutions against existing re-purposed models. We share and discuss
our data-driven decisions about implementation trade-offs and their estimated
outcomes in hindsight, showing that a fully functional machine learning product
can be built from existing models.
- Abstract(参考訳): 音声アシスタントは、ユーザーがデジタル製品と対話する新しい方法を提供する。
このような製品は、音声からテキストへの書き起こし、名前付きエンティティ認識と解決、テキスト分類など、いくつかの機械学習モデルで構成されている。
音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。
サードパーティベンダの使用や既存モデルの再提案といった代替手段は、市場投入時間や開発コストを短縮すると考えられる。
しかし、それぞれの選択肢には利点と欠点がある。
Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。
本稿は,既存の汎用モデルに対する専用ソリューションの性能と開発実績を比較したものである。
我々は、実装のトレードオフとその推定結果に関するデータ駆動決定を後から見て議論し、完全に機能する機械学習製品が既存のモデルから構築できることを示す。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks [3.015760169663536]
複数の音声言語処理タスクを処理可能な統一モデルの開発において,アダプタベースの微調整の可能性を検討する。
アダプタをベースとしたファインチューニングにより、単一エンコーダデコーダモデルにより、平均18.4%の精度で複数の音声処理タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-06-20T21:39:04Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative
Dialogue with LLM [2.2894985490441377]
本稿では,テキスト・ツー・イメージ・プロンプトのステップ・バイ・ステップ作成を可能にする新しい混合開始システムであるPromptCrafterを紹介する。
反復的なプロセスを通じて、ユーザーはモデルの能力を効率的に探求し、その意図を明らかにすることができる。
PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
論文 参考訳(メタデータ) (2023-07-18T05:51:00Z) - FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。
FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文 参考訳(メタデータ) (2023-05-18T14:45:09Z) - AARGH! End-to-end Retrieval-Generation for Task-Oriented Dialog [3.42658286826597]
AARGHは、単一モデルにおける検索と生成のアプローチを組み合わせたエンドツーエンドのタスク指向対話システムである。
提案手法は,状態追跡とコンテキスト・ツー・レスポンス生成性能を維持・改善しながら,より多様な出力を生成する。
論文 参考訳(メタデータ) (2022-09-08T08:15:22Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z) - An End-to-End ML System for Personalized Conversational Voice Models in
Walmart E-Commerce [10.40608530058899]
対話型音声コマースのためのエンド・ツー・エンドの機械学習システムを提案する。
モデルへの暗黙的なフィードバック、モデルのトレーニング、アップデートの評価、リアルタイム推論エンジンのためのコンポーネントが含まれています。
弊社のシステムは、Walmart Groceryの顧客のための音声ショッピングをパーソナライズしており、現在Google Assistant、Siri、Google Homeデバイスで利用できる。
論文 参考訳(メタデータ) (2020-11-02T10:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。