論文の概要: Pattern-aware Data Augmentation for Query Rewriting in Voice Assistant
Systems
- arxiv url: http://arxiv.org/abs/2012.11468v1
- Date: Mon, 21 Dec 2020 16:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:37:46.578285
- Title: Pattern-aware Data Augmentation for Query Rewriting in Voice Assistant
Systems
- Title(参考訳): 音声アシスタントシステムにおけるクエリ書き換えのためのパターン認識データ拡張
- Authors: Yunmo Chen, Sixing Lu, Fan Yang, Xiaojiang Huang, Xing Fan, Chenlei
Guo
- Abstract要約: 既存のトレーニングペアからパターンを学習し、ラベルの書き換えから書き換え候補を逆に生成し、不十分なQRトレーニングデータを補う拡張フレームワークを提案する。
実験の結果,QRベースラインを十分に訓練し,低リソース領域やローカライズ領域でのQR性能向上に有効である可能性が示された。
- 参考スコア(独自算出の注目度): 10.332550622090718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query rewriting (QR) systems are widely used to reduce the friction caused by
errors in a spoken language understanding pipeline. However, the underlying
supervised models require a large number of labeled pairs, and these pairs are
hard and costly to be collected. Therefore, We propose an augmentation
framework that learns patterns from existing training pairs and generates
rewrite candidates from rewrite labels inversely to compensate for insufficient
QR training data. The proposed framework casts the augmentation problem as a
sequence-to-sequence generation task and enforces the optimization process with
a policy gradient technique for controllable rewarding. This approach goes
beyond the traditional heuristics or rule-based augmentation methods and is not
constrained to generate predefined patterns of swapping/replacing words. Our
experimental results show its effectiveness compared with a fully trained QR
baseline and demonstrate its potential application in boosting the QR
performance on low-resource domains or locales.
- Abstract(参考訳): クエリ書き換え(QR)システムは、音声言語理解パイプラインにおけるエラーによる摩擦を軽減するために広く利用されている。
しかし、基礎となる教師付きモデルは多数のラベル付きペアを必要とし、これらのペアは収集が困難でコストがかかる。
そこで本研究では,既存のトレーニングペアからパターンを学習し,書き直しラベルから書き直し候補を生成する拡張フレームワークを提案する。
提案手法は,シーケンス・ツー・シーケンス生成タスクとして拡張問題をキャストし,制御可能な報酬処理のためのポリシー勾配手法を用いて最適化処理を実行する。
このアプローチは従来のヒューリスティックやルールベースの拡張メソッドを越えており、単語のスワップ/リプレースに関する事前定義されたパターンを生成するには制限されていない。
実験の結果,QRベースラインを十分に訓練し,低リソース領域やローカライズ領域でのQR性能向上に有効である可能性が示された。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering [33.89497991289916]
そこで本研究では,新たな書込み手法であるCoTKRを提案し,推論トレースとそれに対応する知識をインターリーブ方式で生成する。
我々は,様々な知識グラフ質問回答 (KGQA) ベンチマークを用いて,様々な言語モデル (LLM) を用いて実験を行う。
論文 参考訳(メタデータ) (2024-09-29T16:08:45Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Pre-Training for Query Rewriting in A Spoken Language Understanding
System [14.902583546933563]
まず、クエリ書き換えのためのニューラル検索に基づくアプローチを提案する。
そして、事前学習された文脈言語埋め込みの成功に触発されて、言語モデリング(LM)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-13T16:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。