論文の概要: Natural Response Generation for Chinese Reading Comprehension
- arxiv url: http://arxiv.org/abs/2302.08817v2
- Date: Mon, 9 Oct 2023 04:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 14:47:58.262164
- Title: Natural Response Generation for Chinese Reading Comprehension
- Title(参考訳): 中国語読解のための自然応答生成
- Authors: Nuo Chen, Hongguang Li, Yinan Bao, Baoyuan Wang and Jia Li
- Abstract要約: 我々はPenguinと呼ばれる新しいデータセットを構築し、機械読解の研究を促進する。
Penguinは200kのトレーニングデータで構成される。
エンドツーエンドと2段階のフレームワークという、2つの強力なベースラインを開発しています。
- 参考スコア(独自算出の注目度): 44.54191367748351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine reading comprehension (MRC) is an important area of conversation
agents and draws a lot of attention. However, there is a notable limitation to
current MRC benchmarks: The labeled answers are mostly either spans extracted
from the target corpus or the choices of the given candidates, ignoring the
natural aspect of high-quality responses. As a result, MRC models trained on
these datasets can not generate human-like responses in real QA scenarios. To
this end, we construct a new dataset called Penguin to promote the research of
MRC, providing a training and test bed for natural response generation to real
scenarios. Concretely, Penguin consists of 200k training data with high-quality
fluent, and well-informed responses. Penguin is the first benchmark towards
natural response generation in Chinese MRC on a relatively large scale. To
address the challenges in Penguin, we develop two strong baselines: end-to-end
and two-stage frameworks. Following that, we further design Prompt-BART:
fine-tuning the pre-trained generative language models with a mixture of prefix
prompts in Penguin. Extensive experiments validated the effectiveness of this
design.
- Abstract(参考訳): machine reading comprehension (mrc) は会話エージェントの重要な領域であり、多くの注目を集めている。
ラベル付き回答は、主に対象のコーパスから抽出された範囲か、与えられた候補の選択のいずれかであり、高品質な応答の自然な側面を無視している。
その結果、これらのデータセットでトレーニングされたMRCモデルは、実際のQAシナリオでは人間のような応答を生成できない。
そこで本研究では,MRCの研究を促進するためにPenguinという新たなデータセットを構築し,実シナリオに対する自然応答生成のためのトレーニングとテストベッドを提供する。
具体的には、Penguinは200kのトレーニングデータから成り、高品質で流動的で、インフォームドなレスポンスを持つ。
ペンギンは比較的大規模な中国のmrcにおける自然応答生成に対する最初のベンチマークである。
Penguinの課題に対処するため、エンドツーエンドと2段階のフレームワークという、2つの強力なベースラインを開発しました。
次に、Penguinでプレフィックスプロンプトを混合した事前学習された生成言語モデルを微調整するPrompt-BARTをさらに設計する。
広範な実験により、この設計の有効性が検証された。
関連論文リスト
- Can Pre-trained Language Models Understand Chinese Humor? [74.96509580592004]
本論文は,事前学習言語モデル(PLM)のユーモア理解能力を体系的に研究する最初の論文である。
提案した評価フレームワークのすべてのデータ要件を完全に満たす中国の総合的ユーモアデータセットを構築した。
中国のユーモアデータセットに関する実証的研究は、ユーモア理解と生成におけるPLMの将来の最適化に非常に役立つ貴重な観察結果をもたらす。
論文 参考訳(メタデータ) (2024-07-04T18:13:38Z) - Towards Reliable and Factual Response Generation: Detecting Unanswerable
Questions in Information-Seeking Conversations [16.99952884041096]
生成的AIモデルは、そのようなシステムに対するユーザの信頼を損なう可能性のある幻覚の課題に直面します。
本稿では,まずコーパス内の関連するパスを識別し,最後にシステム応答にまとめる2段階のプロセスとして,会話情報探索の問題にアプローチする。
具体的には,文レベル分類器を用いて解答の有無を判定し,これらの予測を文レベルに集約し,最後に最終解答可能性推定値に到達する。
論文 参考訳(メタデータ) (2024-01-21T10:15:36Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - HPE:Answering Complex Questions over Text by Hybrid Question Parsing and
Execution [92.69684305578957]
テキストQAにおける質問解析と実行の枠組みを提案する。
提案したフレームワークは、トップダウンの質問パースとして、ボトムアップの回答バックトラックとみなすことができる。
MuSiQue,2WikiQA,HotpotQA,およびNQに関する実験により,提案した解析およびハイブリッド実行フレームワークが,教師付き,少数ショット,ゼロショット設定における既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-12T22:37:06Z) - Using Synthetic Data for Conversational Response Generation in
Low-resource Settings [0.0]
フィリピンの人気オンラインフォーラムから収集された最初のフィリピンの会話データセットをリリースする。
次に,Tagalog RoBERTaモデルを用いて既存のコーパスのサイズを増大させることにより,フィリピンのデータに対するデータ拡張手法を提案する。
第3に、フィリピン初の対話応答生成装置を公開し、前回の3つの応答に関する応答を生成する。
論文 参考訳(メタデータ) (2022-04-06T08:11:12Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Exploring Dense Retrieval for Dialogue Response Selection [42.89426092886912]
本研究では,高密度検索モデルを用いて,大規模コーパスや非並列コーパスから直接適切な応答を選択する方法を提案する。
再ランク設定では、その単純さを考えると、その優位性はかなり驚きます。フルランク設定では、私たちは、そのような評価を最初に行うことを強調できます。
論文 参考訳(メタデータ) (2021-10-13T10:10:32Z) - Diversifying Task-oriented Dialogue Response Generation with Prototype
Guided Paraphrasing [52.71007876803418]
タスク指向対話システム(TDS)における既存の対話応答生成(DRG)方法は、テンプレートベースとコーパスベースという2つのカテゴリに分類される。
我々はP2-Netと呼ばれるプロトタイプベースのパラフレーズニューラルネットワークを提案し、精度と多様性の両面で応答の質を高めることを目的としている。
論文 参考訳(メタデータ) (2020-08-07T22:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。