論文の概要: Self-Aware Feedback-Based Self-Learning in Large-Scale Conversational AI
- arxiv url: http://arxiv.org/abs/2205.00029v1
- Date: Fri, 29 Apr 2022 18:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 12:46:32.579530
- Title: Self-Aware Feedback-Based Self-Learning in Large-Scale Conversational AI
- Title(参考訳): 大規模会話型AIにおける自己認識フィードバックに基づく自己学習
- Authors: Pragaash Ponnusamy, Clint Solomon Mathialagan, Gustavo Aguilar,
Chengyuan Ma, Chenlei Guo
- Abstract要約: 大規模な会話型AIエージェントにおける自己学習のパラダイムは、ユーザからのフィードバックを利用して、発言と意味をブリッジする傾向がある。
我々の自己認識モデルはPR-AUC全体を27.45%改善し、相対的な欠陥を最大31.22%減少させ、世界的嗜好の変化に迅速に適応できることを示した。
- 参考スコア(独自算出の注目度): 8.638846754482467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-learning paradigms in large-scale conversational AI agents tend to
leverage user feedback in bridging between what they say and what they mean.
However, such learning, particularly in Markov-based query rewriting systems
have far from addressed the impact of these models on future training where
successive feedback is inevitably contingent on the rewrite itself, especially
in a continually updating environment. In this paper, we explore the
consequences of this inherent lack of self-awareness towards impairing the
model performance, ultimately resulting in both Type I and II errors over time.
To that end, we propose augmenting the Markov Graph construction with a
superposition-based adjacency matrix. Here, our method leverages an induced
stochasticity to reactively learn a locally-adaptive decision boundary based on
the performance of the individual rewrites in a bi-variate beta setting. We
also surface a data augmentation strategy that leverages template-based
generation in abridging complex conversation hierarchies of dialogs so as to
simplify the learning process. All in all, we demonstrate that our self-aware
model improves the overall PR-AUC by 27.45%, achieves a relative defect
reduction of up to 31.22%, and is able to adapt quicker to changes in global
preferences across a large number of customers.
- Abstract(参考訳): 大規模な会話型AIエージェントにおける自己学習のパラダイムは、ユーザからのフィードバックを利用して、発言と意味をブリッジする傾向がある。
しかし、マルコフベースのクエリ書き換えシステムにおけるこのような学習は、特に継続的な更新環境において、逐次フィードバックが必然的に書き直し自体に影響を及ぼす将来のトレーニングにおけるこれらのモデルの影響に対処するには程遠い。
本稿では,モデル性能を損なうことに対する自己認識の欠如の結果を考察し,最終的にタイプiとタイプiiの両方のエラーを経時的に発生させる。
そこで我々は,重ね合わせに基づく隣接行列を用いたマルコフグラフ構築の強化を提案する。
そこで本手法では,2変量ベータ環境での個々の書き換えの性能に基づいて局所適応的決定境界を動的に学習する。
また、対話の複雑な階層化にテンプレートベースの生成を活用することで、学習プロセスを簡素化するデータ拡張戦略も提示する。
全体として、私たちの自己認識モデルはPR-AUC全体を27.45%改善し、相対的な欠陥を最大31.22%削減し、多数の顧客間でのグローバルな嗜好の変化に迅速に適応できることを示した。
関連論文リスト
- ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。