論文の概要: KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark
- arxiv url: http://arxiv.org/abs/2402.17377v2
- Date: Mon, 17 Jun 2024 05:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:46:37.719621
- Title: KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark
- Title(参考訳): KoDialogBench:韓国語対話ベンチマークによる言語モデルの会話的理解の評価
- Authors: Seongbo Jang, Seonghyeon Lee, Hwanjo Yu,
- Abstract要約: 韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。
日常の話題に関する韓国語の対話を公開情報源から収集したり、他言語からの対話を翻訳したりする。
次に、これらの会話を多様なテストデータセットに構成し、対話理解から応答選択タスクにまたがる。
- 参考スコア(独自算出の注目度): 19.14739816385178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As language models are often deployed as chatbot assistants, it becomes a virtue for models to engage in conversations in a user's first language. While these models are trained on a wide range of languages, a comprehensive evaluation of their proficiency in low-resource languages such as Korean has been lacking. In this work, we introduce KoDialogBench, a benchmark designed to assess language models' conversational capabilities in Korean. To this end, we collect native Korean dialogues on daily topics from public sources, or translate dialogues from other languages. We then structure these conversations into diverse test datasets, spanning from dialogue comprehension to response selection tasks. Leveraging the proposed benchmark, we conduct extensive evaluations and analyses of various language models to measure a foundational understanding of Korean dialogues. Experimental results indicate that there exists significant room for improvement in models' conversation skills. Furthermore, our in-depth comparisons across different language models highlight the effectiveness of recent training techniques in enhancing conversational proficiency. We anticipate that KoDialogBench will promote the progress towards conversation-aware Korean language models.
- Abstract(参考訳): 言語モデルは、しばしばチャットボットアシスタントとしてデプロイされるため、モデルがユーザの最初の言語で会話を行うようになる。
これらのモデルは幅広い言語で訓練されているが、韓国語のような低リソース言語におけるそれらの能力の総合的な評価は欠如している。
本研究では,韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。
この目的のために,日中の話題に関する韓国語対話を公開資料から収集したり,他言語からの対話を翻訳したりする。
次に、これらの会話を多様なテストデータセットに構成し、対話理解から応答選択タスクにまたがる。
提案手法を応用して,韓国語対話の基盤的理解を測定するために,様々な言語モデルの広範囲な評価と分析を行う。
実験結果から,モデルの会話能力向上のための重要な場があることが示唆された。
さらに、異なる言語モデル間での詳細な比較では、会話の熟練度を高めるための最近の訓練手法の有効性を強調した。
我々はKoDialogBenchが韓国語モデルの発展を促進することを期待する。
関連論文リスト
- PSYDIAL: Personality-based Synthetic Dialogue Generation using Large Language Models [4.283022729693451]
本稿では,大規模言語モデルからの応答をプロンプトによって引き出すための,エンドツーエンドのパーソナリティに基づく合成対話データ生成パイプラインを提案する。
提案したパイプラインを用いて,パーソナリティに基づく対話に焦点を当てた韓国初の対話データセットPSYDIALを紹介した。
実験結果から, 事前学習モデルと, チャイトチャットデータセットを用いた微調整モデルでは, 人格を反映する応答を生成するのに苦労する一方で, PSYDIALでトレーニングしたモデルでは, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-04-01T05:19:34Z) - Large Language Model based Situational Dialogues for Second Language Learning [7.450328495455734]
第二言語学習において、シナリオベースの会話実践は、言語学習者が話し言葉の流布を達成するために重要である。
このギャップを埋めるために,学生が会話の実践を行うための状況対話モデルを提案する。
我々の状況対話モデルは大規模言語モデル(LLM)に基づいて微調整されており、オープンエンド会話の係り受け性とシナリオベースタスクの焦点を合わせることを目的としている。
論文 参考訳(メタデータ) (2024-03-29T06:43:55Z) - Neural Conversation Models and How to Rein Them in: A Survey of Failures
and Fixes [17.489075240435348]
最近の条件付き言語モデルは、しばしば流動的な方法で、あらゆる種類のテキストソースを継続することができる。
言語の観点から言えば、会話への貢献は高い。
最近のアプローチでは、基礎となる言語モデルを様々な介入ポイントでテームしようと試みている。
論文 参考訳(メタデータ) (2023-08-11T12:07:45Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - User Adaptive Language Learning Chatbots with a Curriculum [55.63893493019025]
語彙的に制約されたデコーディングをダイアログシステムに適用し、ダイアログシステムに対して、その生成した発話にカリキュラムに準拠した単語やフレーズを含めるよう促す。
評価の結果,カリキュラム注入によるダイアログシステムにより,対象語に対する生徒の理解が向上し,英語実践への関心が高まることが示された。
論文 参考訳(メタデータ) (2023-04-11T20:41:41Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Building a Personalized Dialogue System with Prompt-Tuning [5.942602139622984]
与えられた文字設定(ペルソナ)に基づいて応答する対話システムを構築する。
本稿では,事前学習された大規模言語モデルに対して,学習コストの低いプロンプトチューニングを利用する手法を提案する。
論文 参考訳(メタデータ) (2022-06-11T02:21:11Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。