論文の概要: Adaptive Endpointing with Deep Contextual Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2303.13407v1
- Date: Thu, 23 Mar 2023 16:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:33:13.604048
- Title: Adaptive Endpointing with Deep Contextual Multi-armed Bandits
- Title(参考訳): 深層マルチアームバンドを用いたアダプティブエンドポイント
- Authors: Do June Min, Andreas Stolcke, Anirudh Raju, Colin Vaz, Di He,
Venkatesh Ravichandran, Viet Anh Trinh
- Abstract要約: オンライン環境における発話レベルの音声特徴を最適に設定するための効率的な手法を提案する。
提案手法では,アノテートラベルを必要とせず,アノテートラベルを必要とせず,報奨信号からのオンライン学習のみを用いる。
- 参考スコア(独自算出の注目度): 30.13188582607401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current endpointing (EP) solutions learn in a supervised framework, which
does not allow the model to incorporate feedback and improve in an online
setting. Also, it is a common practice to utilize costly grid-search to find
the best configuration for an endpointing model. In this paper, we aim to
provide a solution for adaptive endpointing by proposing an efficient method
for choosing an optimal endpointing configuration given utterance-level audio
features in an online setting, while avoiding hyperparameter grid-search. Our
method does not require ground truth labels, and only uses online learning from
reward signals without requiring annotated labels. Specifically, we propose a
deep contextual multi-armed bandit-based approach, which combines the
representational power of neural networks with the action exploration behavior
of Thompson modeling algorithms. We compare our approach to several baselines,
and show that our deep bandit models also succeed in reducing early cutoff
errors while maintaining low latency.
- Abstract(参考訳): 現在のエンドポイント(EP)ソリューションは、モデルにフィードバックを組み込むことができず、オンライン設定で改善する、教師付きフレームワークで学習する。
また、エンドポイントモデルの最適な構成を見つけるためにコストのかかるグリッド検索を利用するのが一般的です。
本稿では,ハイパーパラメータグリッド探索を回避しつつ,発話レベルの音声特徴をオンライン環境で選択した最適なエンドポイント構成を選択する効率的な方法を提案する。
本手法では、真理ラベルは必要とせず、注釈付きラベルを必要とせず、報酬信号からのオンライン学習のみを用いる。
具体的には、ニューラルネットワークの表現力とトンプソンモデリングアルゴリズムの動作探索の振る舞いを組み合わせた、深層文脈のマルチアームバンディットに基づくアプローチを提案する。
当社のアプローチをいくつかのベースラインと比較し,低レイテンシを維持しながら早期のカットオフエラーの低減に成功していることを示す。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Provably Efficient Reinforcement Learning for Online Adaptive Influence
Maximization [53.11458949694947]
本稿では,リアルタイムフィードバックに基づいてシードノードを逐次活性化する,コンテンツ依存型オンライン影響問題の適応バージョンについて検討する。
提案アルゴリズムは,最適政策を楽観的に改善しつつ,ネットワークモデルの推定を保守し,適応的にシードを選択する。
論文 参考訳(メタデータ) (2022-06-29T18:17:28Z) - Spatial Autoregressive Coding for Graph Neural Recommendation [38.66151035948021]
浅いモデルとディープグラフニューラルネットワーク(GNN)は、サンプリングされたサブグラフやシーケンスの近傍を適切に利用できない。
本稿では、上記の問題を統一的に解くための新しいフレームワークである空間自己回帰符号化(SAC)を提案する。
パブリックレコメンデーションデータセットと実シナリオWebスケールデータセットの両方の実験結果は、最先端の手法と比較してSACの優位性を示している。
論文 参考訳(メタデータ) (2022-05-19T12:00:01Z) - Optimal Stopping via Randomized Neural Networks [6.677219861416146]
本稿では、標準基底関数やディープニューラルネットワークの代わりにランダム化されたニューラルネットワークを使用することの利点について述べる。
我々のアプローチは、既存のアプローチがますます非現実的になるような高次元問題に適用できる。
いずれにせよ、我々のアルゴリズムは、最先端や他の関連する機械学習アプローチよりも時間的に優れている。
論文 参考訳(メタデータ) (2021-04-28T09:47:21Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Deep-3DAligner: Unsupervised 3D Point Set Registration Network With
Optimizable Latent Vector [15.900382629390297]
本稿では,3次元登録における技術的課題に対処するために,学習に最適化を統合する新しいモデルを提案する。
ディープトランスフォーメーションデコーディングネットワークに加えて、我々のフレームワークは最適化可能なディープアンダーラインSpatial UnderlineCorrelation UnderlineRepresentationを導入している。
論文 参考訳(メタデータ) (2020-09-29T22:44:38Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。