論文の概要: Sentence Level Curriculum Learning for Improved Neural Conversational
Models
- arxiv url: http://arxiv.org/abs/2305.08818v1
- Date: Mon, 15 May 2023 17:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:27:18.115180
- Title: Sentence Level Curriculum Learning for Improved Neural Conversational
Models
- Title(参考訳): 改良型ニューラル会話モデルのための文レベルのカリキュラム学習
- Authors: Sean Paulsen
- Abstract要約: 我々は、人間と会話するための機械知能の設計方法を研究する。
私たちのゴールは、各セグメントのコーパスが長い文対で構成されているように、トレーニングをセグメントに分けることです。
これは、人間の学習の望ましい"ビルドアップ"コンポーネントを模倣します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing machine intelligence to converse with a human user necessarily
requires an understanding of how humans participate in conversation, and thus
conversation modeling is an important task in natural language processing. New
breakthroughs in architecture and data gathering continue to push the
performance of such conversational AI models. However, designs neglect the
gradual buildup in sentence structure and complexity experienced by humans as
we learn to communicate. During training, our model accepts one or more
sentences as input and attempts to predict the next sentence in the
conversation one word at a time, so our goal is to separate training into
segments, with each segment's corpus comprised of longer sentence pairs than
the previous one. This will mimic the desired "buildup" component of human
learning. We begin with only "short" length sentence pairs, then only "medium"
length pairs, and so on. A majority of our experiments were toward optimizing
this technique, ensuring a proper representation of the technique's potential,
since many of the details were new questions. Our segment-trained models were
then able to achieve lower validation loss at the end of training than models
trained with standard text preparation. This segmented training is
straightforward to implement and our results provide a general direction for
future research to implement and improve it.
- Abstract(参考訳): マシンインテリジェンスを設計して人間と会話するには、人間がどのように会話に参加するかを理解する必要があるため、会話モデリングは自然言語処理において重要な課題である。
アーキテクチャとデータ収集における新たなブレークスルーは、このような会話型AIモデルのパフォーマンスを押し上げ続けている。
しかし、デザインは、コミュニケーションを学ぶときに人間が経験する文構造と複雑さの段階的な積み重ねを無視します。
学習中,本モデルは1つ以上の文を入力として受け入れ,会話中の次の文を1ワードずつ予測しようとする。
これは、人間の学習の望ましい"ビルドアップ"コンポーネントを模倣します。
まず「短い」長さの文対だけから始め、それから「メートル」長さのペアだけから始めます。
私たちの実験の大半は、このテクニックを最適化し、テクニックのポテンシャルを適切に表現することを目的としていました。
その結果, セグメント学習モデルでは, 標準テキスト作成モデルよりも, トレーニング終了時の検証損失が低いことがわかった。
このセグメント化トレーニングは実装が容易で,今後の研究が実装と改善を行うための一般的な方向性を提供します。
関連論文リスト
- Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data [3.1715756370116637]
人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-29T10:50:03Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - TANet: Thread-Aware Pretraining for Abstractive Conversational
Summarization [27.185068253347257]
我々はRedditコミュニティの複数人による議論に基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。
次に、スレッド対応のTransformerベースのネットワークであるTANetを紹介する。
会話を文の列として扱う既存の事前学習モデルとは異なり、本質的な文脈依存は会話全体を理解する上で重要な役割を担っていると論じる。
論文 参考訳(メタデータ) (2022-04-09T16:08:46Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - A Primer on Contrastive Pretraining in Language Processing: Methods,
Lessons Learned and Perspectives [22.933794444266596]
最近の自己監督型および監督型対照型NLP前訓練法について述べる。
アプリケーションによる先行研究や構造ワークから学んだことと、主要なコントラスト学習の概念を紹介します。
コントラストNLPの課題と今後の方向性は,画像表現事前学習の成功に近づいたコントラストNLPの事前学習を促進することにある。
論文 参考訳(メタデータ) (2021-02-25T16:35:07Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Interpreting convolutional networks trained on textual data [0.0]
我々は,テキストデータに基づく畳み込みモデルを訓練し,そのフィルタ値を用いてモデルのグローバル論理を解析する。
モデルロジックのコーパスで最も重要な単語を見つけ、残りの単語を取り除きます。
5%以上の重要な単語でトレーニングされた新しいモデルは、トレーニング時間を半分以上削減しながら、オリジナルのモデルと同じパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2020-10-20T20:12:05Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。