論文の概要: CNIMA: A Universal Evaluation Framework and Automated Approach for Assessing Second Language Dialogues
- arxiv url: http://arxiv.org/abs/2408.16518v1
- Date: Thu, 29 Aug 2024 13:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:42:55.070088
- Title: CNIMA: A Universal Evaluation Framework and Automated Approach for Assessing Second Language Dialogues
- Title(参考訳): CNIMA:第2言語対話の評価のための普遍的評価フレームワークと自動アプローチ
- Authors: Rena Gao, Jingxuan Wu, Carsten Roever, Xuetong Wu, Jing Wu, Long Lv, Jey Han Lau,
- Abstract要約: CNIMAは10K対話による中国語と中国語のラベル付きデータセットである。
マイクロレベルの特徴を評価する評価フレームワークを用いてCNIMAに注釈を付ける。
評価の自動化と性能向上のためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 21.34138535130589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop CNIMA (Chinese Non-Native Interactivity Measurement and Automation), a Chinese-as-a-second-language labelled dataset with 10K dialogues. We annotate CNIMA using an evaluation framework -- originally introduced for English-as-a-second-language dialogues -- that assesses micro-level features (e.g.\ backchannels) and macro-level interactivity labels (e.g.\ topic management) and test the framework's transferability from English to Chinese. We found the framework robust across languages and revealed universal and language-specific relationships between micro-level and macro-level features. Next, we propose an approach to automate the evaluation and find strong performance, creating a new tool for automated second language assessment. Our system can be adapted to other languages easily as it uses large language models and as such does not require large-scale annotated training data.
- Abstract(参考訳): CNIMA (China Non-Native Interactive Measurement and Automation) は10K対話を用いた中国語と中国語のラベル付きデータセットである。
マイクロレベルの特徴(例えば、バックチャネル)とマクロレベルの対話性ラベル(例えば、トピック管理)を評価し、そのフレームワークの英語から中国語への変換性をテストする。
言語間で頑健なフレームワークが発見され,マイクロレベルとマクロレベルの共通性と言語固有の関係が明らかになった。
次に、評価を自動化し、高い性能を得るためのアプローチを提案し、第2言語の自動評価のための新しいツールを作成する。
我々のシステムは、大規模言語モデルを使用するため、容易に他の言語に適応できるため、大規模な注釈付きトレーニングデータを必要としない。
関連論文リスト
- Intent-Aware Dialogue Generation and Multi-Task Contrastive Learning for Multi-Turn Intent Classification [6.459396785817196]
Chain-of-Intentは、セルフプレイを通じて意図駆動の会話を生成する。
MINT-CLはマルチタスクコントラスト学習を用いたマルチターンインテント分類のためのフレームワークである。
MINT-Eは多言語対応のマルチターンeコマース対話コーパスである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - Interaction Matters: An Evaluation Framework for Interactive Dialogue Assessment on English Second Language Conversations [22.56326809612278]
第二言語話者としての英語の文脈における対話的対話評価のための評価フレームワークを提案する。
本フレームワークは,対話レベルの対話性ラベルとマイクロレベルのスパン特徴を収集する。
各種機械学習モデルの構築により,マイクロレベルの特徴がESL対話の(高レベルな)相互作用品質に与える影響について検討した。
論文 参考訳(メタデータ) (2024-07-09T00:56:59Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。