Fugu-MT 論文翻訳(概要): With One Voice: Composing a Travel Voice Assistant from Re-purposed Models

論文の概要: With One Voice: Composing a Travel Voice Assistant from Re-purposed Models

arxiv url: http://arxiv.org/abs/2108.11463v1
Date: Wed, 4 Aug 2021 10:34:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-29 12:08:26.787561
Title: With One Voice: Composing a Travel Voice Assistant from Re-purposed Models
Title（参考訳）: 1つの声で:旅行用音声アシスタントを改造したモデル
Authors: Shachaf Poran, Gil Amsalem, Amit Beka, Dmitri Goldenberg
Abstract要約: 音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。 Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。本論文は、既存の再目的モデルに対して、専用のテーラーメイドソリューションにおいて達成された性能と開発努力を比較した。
参考スコア（独自算出の注目度）: 0.7742297876120561
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Voice assistants provide users a new way of interacting with digital products, allowing them to retrieve information and complete tasks with an increased sense of control and flexibility. Such products are comprised of several machine learning models, like Speech-to-Text transcription, Named Entity Recognition and Resolution, and Text Classification. Building a voice assistant from scratch takes the prolonged efforts of several teams constructing numerous models and orchestrating between components. Alternatives such as using third-party vendors or re-purposing existing models may be considered to shorten time-to-market and development costs. However, each option has its benefits and drawbacks. We present key insights from building a voice search assistant for Booking.com search and recommendation system. Our paper compares the achieved performance and development efforts in dedicated tailor-made solutions against existing re-purposed models. We share and discuss our data-driven decisions about implementation trade-offs and their estimated outcomes in hindsight, showing that a fully functional machine learning product can be built from existing models.
Abstract（参考訳）: 音声アシスタントは、ユーザーがデジタル製品と対話する新しい方法を提供する。このような製品は、音声からテキストへの書き起こし、名前付きエンティティ認識と解決、テキスト分類など、いくつかの機械学習モデルで構成されている。音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。サードパーティベンダの使用や既存モデルの再提案といった代替手段は、市場投入時間や開発コストを短縮すると考えられる。しかし、それぞれの選択肢には利点と欠点がある。 Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。本稿は,既存の汎用モデルに対する専用ソリューションの性能と開発実績を比較したものである。我々は、実装のトレードオフとその推定結果に関するデータ駆動決定を後から見て議論し、完全に機能する機械学習製品が既存のモデルから構築できることを示す。

関連論文リスト

UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。 5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文参考訳（メタデータ） (2025-07-09T17:02:40Z)
Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models [11.136112399898481]
生成モデルを用いて聴覚知識を動的に生成する新しい手法であるImagine to Hearを提案する。本フレームワークは、与えられたプロンプトから複数の音声関連テキストスパンを検出し、対応する聴覚知識を生成する。実験の結果,外部データベースに頼らずにAuditoryBenchの最先端性能を実現することができた。
論文参考訳（メタデータ） (2025-03-21T04:56:22Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
VANPY: Voice Analysis Framework [0.0]
我々は,自動前処理,特徴抽出,音声データの分類を行うVANPYフレームワークを開発した。フレームワークの4つのコンポーネントは社内で開発され、話者のキャラクタリゼーション機能を拡張するためにフレームワークに統合された。映画"Pulp Fiction"の文字音声分析における使用事例から, 話者特性を抽出するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2025-02-17T21:12:57Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks [3.015760169663536]
複数の音声言語処理タスクを処理可能な統一モデルの開発において,アダプタベースの微調整の可能性を検討する。アダプタをベースとしたファインチューニングにより、単一エンコーダデコーダモデルにより、平均18.4%の精度で複数の音声処理タスクを実行できることを示す。
論文参考訳（メタデータ） (2024-06-20T21:39:04Z)
WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。 ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文参考訳（メタデータ） (2024-03-31T12:01:32Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文参考訳（メタデータ） (2023-09-18T06:43:30Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative Dialogue with LLM [2.2894985490441377]
本稿では,テキスト・ツー・イメージ・プロンプトのステップ・バイ・ステップ作成を可能にする新しい混合開始システムであるPromptCrafterを紹介する。反復的なプロセスを通じて、ユーザーはモデルの能力を効率的に探求し、その意図を明らかにすることができる。 PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。
論文参考訳（メタデータ） (2023-07-18T05:51:00Z)
FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。 FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文参考訳（メタデータ） (2023-05-18T14:45:09Z)
AARGH! End-to-end Retrieval-Generation for Task-Oriented Dialog [3.42658286826597]
AARGHは、単一モデルにおける検索と生成のアプローチを組み合わせたエンドツーエンドのタスク指向対話システムである。提案手法は,状態追跡とコンテキスト・ツー・レスポンス生成性能を維持・改善しながら,より多様な出力を生成する。
論文参考訳（メタデータ） (2022-09-08T08:15:22Z)
Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文参考訳（メタデータ） (2021-07-04T08:35:20Z)
An End-to-End ML System for Personalized Conversational Voice Models in Walmart E-Commerce [10.40608530058899]
対話型音声コマースのためのエンド・ツー・エンドの機械学習システムを提案する。モデルへの暗黙的なフィードバック、モデルのトレーニング、アップデートの評価、リアルタイム推論エンジンのためのコンポーネントが含まれています。弊社のシステムは、Walmart Groceryの顧客のための音声ショッピングをパーソナライズしており、現在Google Assistant、Siri、Google Homeデバイスで利用できる。
論文参考訳（メタデータ） (2020-11-02T10:14:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。