論文の概要: KoDialogBench: Evaluating Conversational Understanding of Language
Models with Korean Dialogue Benchmark
- arxiv url: http://arxiv.org/abs/2402.17377v1
- Date: Tue, 27 Feb 2024 10:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:53:37.816700
- Title: KoDialogBench: Evaluating Conversational Understanding of Language
Models with Korean Dialogue Benchmark
- Title(参考訳): kodialogbench: 韓国語対話ベンチマークによる言語モデルの会話理解の評価
- Authors: Seongbo Jang, Seonghyeon Lee, Hwanjo Yu
- Abstract要約: 韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。
日常の話題に関する韓国語の対話を公開情報源から収集したり、他言語からの対話を翻訳したりする。
次に、これらの会話を多様なテストデータセットに構成し、対話理解から応答選択タスクにまたがる。
- 参考スコア(独自算出の注目度): 21.51975668214383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models are often deployed as chatbot assistants, it becomes a
virtue for models to engage in conversations in a user's first language. While
these models are trained on a wide range of languages, a comprehensive
evaluation of their proficiency in low-resource languages such as Korean has
been lacking. In this work, we introduce KoDialogBench, a benchmark designed to
assess language models' conversational capabilities in Korean. To this end, we
collect native Korean dialogues on daily topics from public sources, or
translate dialogues from other languages. We then structure these conversations
into diverse test datasets, spanning from dialogue comprehension to response
selection tasks. Leveraging the proposed benchmark, we conduct extensive
evaluations and analyses of various language models to measure a foundational
understanding of Korean dialogues. Experimental results indicate that there
exists significant room for improvement in models' conversation skills.
Furthermore, our in-depth comparisons across different language models
highlight the effectiveness of recent training techniques in enhancing
conversational proficiency. We anticipate that KoDialogBench will promote the
progress towards conversation-aware Korean language models.
- Abstract(参考訳): 言語モデルは、しばしばチャットボットアシスタントとしてデプロイされるため、モデルがユーザの最初の言語で会話を行うようになる。
これらのモデルは幅広い言語で訓練されているが、韓国語のような低リソース言語における能力の総合的な評価は不足している。
本研究では,韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。
この目的のために,日中の話題に関する韓国語対話を公開資料から収集したり,他言語からの対話を翻訳したりする。
次に,対話理解から応答選択タスクに至るまで,これらの会話をさまざまなテストデータセットに構成する。
提案手法を用いて,韓国語対話の基盤的理解を測定するため,様々な言語モデルの広範な評価と分析を行う。
実験の結果,モデルによる会話能力の向上の余地が示唆された。
さらに, 異なる言語モデル間の詳細な比較では, 会話能力向上における最近の訓練手法の有効性が強調された。
我々はKoDialogBenchが韓国語モデルの発展を促進することを期待する。
関連論文リスト
- Neural Conversation Models and How to Rein Them in: A Survey of Failures
and Fixes [17.489075240435348]
最近の条件付き言語モデルは、しばしば流動的な方法で、あらゆる種類のテキストソースを継続することができる。
言語の観点から言えば、会話への貢献は高い。
最近のアプローチでは、基礎となる言語モデルを様々な介入ポイントでテームしようと試みている。
論文 参考訳(メタデータ) (2023-08-11T12:07:45Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - User Adaptive Language Learning Chatbots with a Curriculum [55.63893493019025]
語彙的に制約されたデコーディングをダイアログシステムに適用し、ダイアログシステムに対して、その生成した発話にカリキュラムに準拠した単語やフレーズを含めるよう促す。
評価の結果,カリキュラム注入によるダイアログシステムにより,対象語に対する生徒の理解が向上し,英語実践への関心が高まることが示された。
論文 参考訳(メタデータ) (2023-04-11T20:41:41Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Building a Personalized Dialogue System with Prompt-Tuning [5.942602139622984]
与えられた文字設定(ペルソナ)に基づいて応答する対話システムを構築する。
本稿では,事前学習された大規模言語モデルに対して,学習コストの低いプロンプトチューニングを利用する手法を提案する。
論文 参考訳(メタデータ) (2022-06-11T02:21:11Z) - Sm{\aa}prat: DialoGPT for Natural Language Generation of Swedish
Dialogue by Transfer Learning [1.6111818380407035]
自然言語対話生成のための最先端のモデルは、英語で人間のような単行会話をシミュレートする際、印象的な性能を示した。
この研究は、経験的な研究により、そのようなモデルのスウェーデン語への変換学習の可能性について調査する。
論文 参考訳(メタデータ) (2021-10-12T18:46:43Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Towards Making the Most of Dialogue Characteristics for Neural Chat
Translation [39.995680617671184]
NCTモデルへの対話特性のモデリングによるチャット翻訳の促進を提案する。
これらすべてのタスクのトレーニング目標を通じて,NCTモデルを最適化する。
4つの言語方向に関する総合的な実験により,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-09-02T02:04:00Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。