Fugu-MT 論文翻訳(概要): KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark

論文の概要: KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark

arxiv url: http://arxiv.org/abs/2402.17377v1
Date: Tue, 27 Feb 2024 10:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:53:37.816700
Title: KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark
Title（参考訳）: kodialogbench: 韓国語対話ベンチマークによる言語モデルの会話理解の評価
Authors: Seongbo Jang, Seonghyeon Lee, Hwanjo Yu
Abstract要約: 韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。日常の話題に関する韓国語の対話を公開情報源から収集したり、他言語からの対話を翻訳したりする。次に、これらの会話を多様なテストデータセットに構成し、対話理解から応答選択タスクにまたがる。
参考スコア（独自算出の注目度）: 21.51975668214383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As language models are often deployed as chatbot assistants, it becomes a virtue for models to engage in conversations in a user's first language. While these models are trained on a wide range of languages, a comprehensive evaluation of their proficiency in low-resource languages such as Korean has been lacking. In this work, we introduce KoDialogBench, a benchmark designed to assess language models' conversational capabilities in Korean. To this end, we collect native Korean dialogues on daily topics from public sources, or translate dialogues from other languages. We then structure these conversations into diverse test datasets, spanning from dialogue comprehension to response selection tasks. Leveraging the proposed benchmark, we conduct extensive evaluations and analyses of various language models to measure a foundational understanding of Korean dialogues. Experimental results indicate that there exists significant room for improvement in models' conversation skills. Furthermore, our in-depth comparisons across different language models highlight the effectiveness of recent training techniques in enhancing conversational proficiency. We anticipate that KoDialogBench will promote the progress towards conversation-aware Korean language models.
Abstract（参考訳）: 言語モデルは、しばしばチャットボットアシスタントとしてデプロイされるため、モデルがユーザの最初の言語で会話を行うようになる。これらのモデルは幅広い言語で訓練されているが、韓国語のような低リソース言語における能力の総合的な評価は不足している。本研究では,韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。この目的のために,日中の話題に関する韓国語対話を公開資料から収集したり,他言語からの対話を翻訳したりする。次に,対話理解から応答選択タスクに至るまで,これらの会話をさまざまなテストデータセットに構成する。提案手法を用いて,韓国語対話の基盤的理解を測定するため,様々な言語モデルの広範な評価と分析を行う。実験の結果,モデルによる会話能力の向上の余地が示唆された。さらに, 異なる言語モデル間の詳細な比較では, 会話能力向上における最近の訓練手法の有効性が強調された。我々はKoDialogBenchが韓国語モデルの発展を促進することを期待する。

関連論文リスト

Towards a Japanese Full-duplex Spoken Dialogue System [8.984488716637655]
近年,音声対話システムが注目されている。本稿では,日本語で利用可能なフルステージ音声対話モデルについて紹介する。本モデルは,日本語における大規模音声対話データに対する事前学習と,高品質なステレオ音声対話データによる微調整の2チャンネルプロセスを通じて訓練される。
論文参考訳（メタデータ） (2025-06-03T15:16:50Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
PSYDIAL: Personality-based Synthetic Dialogue Generation using Large Language Models [4.283022729693451]
本稿では,大規模言語モデルからの応答をプロンプトによって引き出すための,エンドツーエンドのパーソナリティに基づく合成対話データ生成パイプラインを提案する。提案したパイプラインを用いて,パーソナリティに基づく対話に焦点を当てた韓国初の対話データセットPSYDIALを紹介した。実験結果から, 事前学習モデルと, チャイトチャットデータセットを用いた微調整モデルでは, 人格を反映する応答を生成するのに苦労する一方で, PSYDIALでトレーニングしたモデルでは, 大幅な改善が見られた。
論文参考訳（メタデータ） (2024-04-01T05:19:34Z)
Large Language Model based Situational Dialogues for Second Language Learning [7.450328495455734]
第二言語学習において、シナリオベースの会話実践は、言語学習者が話し言葉の流布を達成するために重要である。このギャップを埋めるために,学生が会話の実践を行うための状況対話モデルを提案する。我々の状況対話モデルは大規模言語モデル(LLM)に基づいて微調整されており、オープンエンド会話の係り受け性とシナリオベースタスクの焦点を合わせることを目的としている。
論文参考訳（メタデータ） (2024-03-29T06:43:55Z)
Neural Conversation Models and How to Rein Them in: A Survey of Failures and Fixes [17.489075240435348]
最近の条件付き言語モデルは、しばしば流動的な方法で、あらゆる種類のテキストソースを継続することができる。言語の観点から言えば、会話への貢献は高い。最近のアプローチでは、基礎となる言語モデルを様々な介入ポイントでテームしようと試みている。
論文参考訳（メタデータ） (2023-08-11T12:07:45Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
User Adaptive Language Learning Chatbots with a Curriculum [55.63893493019025]
語彙的に制約されたデコーディングをダイアログシステムに適用し、ダイアログシステムに対して、その生成した発話にカリキュラムに準拠した単語やフレーズを含めるよう促す。評価の結果,カリキュラム注入によるダイアログシステムにより,対象語に対する生徒の理解が向上し,英語実践への関心が高まることが示された。
論文参考訳（メタデータ） (2023-04-11T20:41:41Z)
Building a Personalized Dialogue System with Prompt-Tuning [5.942602139622984]
与えられた文字設定(ペルソナ)に基づいて応答する対話システムを構築する。本稿では,事前学習された大規模言語モデルに対して,学習コストの低いプロンプトチューニングを利用する手法を提案する。
論文参考訳（メタデータ） (2022-06-11T02:21:11Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文参考訳（メタデータ） (2020-04-15T04:09:05Z)
XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文参考訳（メタデータ） (2020-03-17T07:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。