論文の概要: CORAL: Contextual Response Retrievability Loss Function for Training
Dialog Generation Models
- arxiv url: http://arxiv.org/abs/2205.10558v3
- Date: Sat, 20 May 2023 13:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 06:13:29.464373
- Title: CORAL: Contextual Response Retrievability Loss Function for Training
Dialog Generation Models
- Title(参考訳): coral: トレーニングダイアログ生成モデルのための文脈応答検索可能性損失関数
- Authors: Bishal Santra, Ravi Ghadia, Manish Gupta and Pawan Goyal
- Abstract要約: コーラルはダイアログ生成タスクの強化学習ビューに基づく新規な損失関数である。
コンテキストと応答の両方を考慮して、生成された応答に対する人間の好みを推定する。
RLトレーニングの高サンプリング複雑性や大規模な行動空間といった課題を克服するため,混合政治学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.654742638172307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the field of Natural Language Processing, there are many tasks that can be
tackled effectively using the cross-entropy (CE) loss function. However, the
task of dialog generation poses unique challenges for CE loss. This is because
CE loss assumes that, for any given input, the only possible output is the one
available as the ground truth in the training dataset. But, in dialog
generation, there can be multiple valid responses (for a given context) that
not only have different surface forms but can also be semantically different.
Furthermore, CE loss computation for the dialog generation task does not take
the input context into consideration and, hence, it grades the response
irrespective of the context. To grade the generated response for qualities like
relevance, engagingness, etc., the loss function should depend on both the
context and the generated response. To address these limitations, this paper
proposes CORAL, a novel loss function based on a reinforcement learning (RL)
view of the dialog generation task with a reward function that estimates human
preference for generated responses while considering both the context and the
response. Furthermore, to overcome challenges such as high sample complexity of
RL training and a large action space, we propose a mix-policy training
algorithm. Notably, using CORAL we can train dialog generation models without
assuming the ground-truth as the only correct response. Extensive comparisons
on benchmark datasets demonstrate that CORAL based models outperform strong
state-of-the-art baseline models of different sizes.
- Abstract(参考訳): 自然言語処理の分野では、クロスエントロピー(CE)損失関数を用いて効果的に取り組むことができるタスクが多数存在する。
しかし、ダイアログ生成のタスクは、CE損失に固有の課題をもたらす。
これはCE損失が、任意の入力に対して唯一可能な出力はトレーニングデータセットの真理として利用できるものであると仮定しているためである。
しかし、ダイアログ生成では、異なる表面形式を持つだけでなく、意味的に異なる複数の有効な応答(与えられたコンテキストに対して)が存在する。
さらに、ダイアログ生成タスクのCE損失計算は、入力コンテキストを考慮しておらず、文脈に関係なく応答を格付けする。
関連性や係合性などの品質に対して生成された応答を格付けするためには、損失関数はコンテキストと生成された応答の両方に依存するべきである。
このような制約に対処するため,本稿では,対話生成タスクの強化学習(RL)ビューに基づく新たな損失関数であるCoralを提案する。
さらに,rlトレーニングのサンプル複雑性や大きな動作空間などの課題を克服するために,混合ポリシートレーニングアルゴリズムを提案する。
特に、Coralを使って、地上の真実を唯一の正しい応答と仮定することなく、ダイアログ生成モデルを訓練することができる。
ベンチマークデータセットの広範な比較は、コーラルベースモデルが、異なるサイズの最先端のベースラインモデルよりも優れていることを示している。
関連論文リスト
- Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - A Systematic Evaluation of Response Selection for Open Domain Dialogue [36.88551817451512]
同じダイアログで生成された複数の応答生成元からの応答を、適切な(正)と不適切な(負)として手動でアノテートするデータセットをキュレートした。
反応選択のための最先端手法の体系的評価を行い、複数の正の候補を用いたり、手動で検証された強陰性候補を用いたりすることで、それぞれRecall@1スコアの3%と13%の増加など、相手のトレーニングデータを用いた場合と比較して、大幅な性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-08T19:33:30Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。