論文の概要: Interaction Matters: An Evaluation Framework for Interactive Dialogue Assessment on English Second Language Conversations
- arxiv url: http://arxiv.org/abs/2407.06479v1
- Date: Tue, 9 Jul 2024 00:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:35:13.542005
- Title: Interaction Matters: An Evaluation Framework for Interactive Dialogue Assessment on English Second Language Conversations
- Title(参考訳): Interaction Matters: 英語第二言語会話における対話的対話評価のための評価フレームワーク
- Authors: Rena Gao, Carsten Roever, Jey Han Lau,
- Abstract要約: 第二言語話者としての英語の文脈における対話的対話評価のための評価フレームワークを提案する。
本フレームワークは,対話レベルの対話性ラベルとマイクロレベルのスパン特徴を収集する。
各種機械学習モデルの構築により,マイクロレベルの特徴がESL対話の(高レベルな)相互作用品質に与える影響について検討した。
- 参考スコア(独自算出の注目度): 22.56326809612278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an evaluation framework for interactive dialogue assessment in the context of English as a Second Language (ESL) speakers. Our framework collects dialogue-level interactivity labels (e.g., topic management; 4 labels in total) and micro-level span features (e.g., backchannels; 17 features in total). Given our annotated data, we study how the micro-level features influence the (higher level) interactivity quality of ESL dialogues by constructing various machine learning-based models. Our results demonstrate that certain micro-level features strongly correlate with interactivity quality, like reference word (e.g., she, her, he), revealing new insights about the interaction between higher-level dialogue quality and lower-level linguistic signals. Our framework also provides a means to assess ESL communication, which is useful for language assessment.
- Abstract(参考訳): 第二言語話者(ESL)としての英語の文脈における対話的対話評価のための評価フレームワークを提案する。
本フレームワークでは,対話レベルの対話性ラベル(トピック管理,合計4ラベル)とマイクロレベルのスパン機能(例えば,バックチャネル,合計17機能)を収集する。
注釈付きデータから,マイクロレベルの特徴がESL対話の(高レベルの)相互作用品質に与える影響を,機械学習モデルの構築により検討した。
以上の結果から,特定のマイクロレベルの特徴は,参照語(例:彼女,彼女,彼)のような相互作用品質と強く相関し,高レベルの対話品質と低レベルの言語信号との相互作用に関する新たな洞察を明らかにすることができる。
また,我々のフレームワークは,言語評価に有用なESL通信を評価する手段も提供する。
関連論文リスト
- CNIMA: A Universal Evaluation Framework and Automated Approach for Assessing Second Language Dialogues [21.34138535130589]
CNIMAは10K対話による中国語と中国語のラベル付きデータセットである。
マイクロレベルの特徴を評価する評価フレームワークを用いてCNIMAに注釈を付ける。
評価の自動化と性能向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-29T13:28:52Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs [19.43845920149182]
ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
論文 参考訳(メタデータ) (2023-06-06T19:43:29Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文 参考訳(メタデータ) (2020-10-08T14:07:32Z) - Exploring Recurrent, Memory and Attention Based Architectures for
Scoring Interactional Aspects of Human-Machine Text Dialog [9.209192502526285]
本稿は、複数のニューラルアーキテクチャを調べるために、この方向の以前の研究に基づいている。
我々は,クラウドベースの対話システムと対話する人間の学習者からテキストダイアログの対話データベース上で実験を行う。
複数のアーキテクチャの融合は、専門家間の合意に比較して、我々の自動スコアリングタスクにおいて有能に機能することがわかった。
論文 参考訳(メタデータ) (2020-05-20T03:23:00Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。