論文の概要: ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain
Dialogue Systems
- arxiv url: http://arxiv.org/abs/2305.07797v1
- Date: Fri, 12 May 2023 23:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:36:46.107317
- Title: ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain
Dialogue Systems
- Title(参考訳): ACCENT:オープンドメイン対話システムのためのイベントコモンセンス自動評価基準
- Authors: Sarik Ghazarian, Yijia Shao, Rujun Han, Aram Galstyan, Nanyun Peng
- Abstract要約: 我々は,コモンセンス知識ベース(CSKB)によるイベントコモンセンス評価であるACCENTを提案する。
実験の結果,ACCENTは事象のコモンセンス評価に有効な指標であり,既存の基準値よりも人間の判断との相関性が高いことがわかった。
- 参考スコア(独自算出の注目度): 43.61252081871526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense reasoning is omnipresent in human communications and thus is an
important feature for open-domain dialogue systems. However, evaluating
commonsense in dialogue systems is still an open challenge. We take the first
step by focusing on event commonsense that considers events and their
relations, and is crucial in both dialogues and general commonsense reasoning.
We propose ACCENT, an event commonsense evaluation metric empowered by
commonsense knowledge bases (CSKBs). ACCENT first extracts event-relation
tuples from a dialogue, and then evaluates the response by scoring the tuples
in terms of their compatibility with the CSKB. To evaluate ACCENT, we construct
the first public event commonsense evaluation dataset for open-domain
dialogues. Our experiments show that ACCENT is an efficient metric for event
commonsense evaluation, which achieves higher correlations with human judgments
than existing baselines.
- Abstract(参考訳): 常識推論は人間のコミュニケーションにおいて一様であり、オープンドメイン対話システムにおいて重要な特徴である。
しかし,対話システムにおけるコモンセンスの評価はいまだに難しい課題である。
イベント・コモンセンスとそれらの関係を考察するイベント・コモンセンスに着目し、対話と一般的なコモンセンス推論の両方において重要である。
本稿では,CSKB(Commonsense Knowledge Bases)によるイベントコモンセンス評価尺度であるACCENTを提案する。
ACCENTはまず対話からイベント関連タプルを抽出し、CSKBとの互換性の観点からタプルをスコアリングして応答を評価する。
アクセントを評価するために,オープンドメイン対話のための最初の公開イベントコモンセンス評価データセットを構築する。
実験の結果,ACCENTは事象のコモンセンス評価に有効な指標であり,既存の基準よりも人間の判断との相関性が高いことがわかった。
関連論文リスト
- CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。
実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:08:16Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue
Assessment [38.26039323208791]
オープンドメインの対話品質を自動的に評価するための大規模対話品質評価データセット(DiQAD)をリリースする。
具体的には,対話の質に関する人間の判断に適合する寸法に基づいて,評価基準を確立する。
また、これらの基準に基づいて実際のユーザ間で会話する大規模な対話を注釈付けし、約10万の対話を含む。
論文 参考訳(メタデータ) (2023-10-25T03:04:57Z) - Evaluating Open-Domain Dialogues in Latent Space with Next Sentence
Prediction and Mutual Information [18.859159491548006]
オープンドメイン対話のための新しい学習ベース自動評価指標(CMN)を提案する。
条件付き変分オートエンコーダ(CVAE)をNext Sentence Prediction(NSP)の対象とし,相互情報(MI)を用いて潜在空間におけるテキストの意味的類似性をモデル化する。
2つのオープンドメイン対話データセットの実験結果は、幅広いベースラインと比較して、我々の手法の優位性を示している。
論文 参考訳(メタデータ) (2023-05-26T14:21:54Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Commonsense-Focused Dialogues for Response Generation: An Empirical
Study [39.49727190159279]
対話応答生成におけるコモンセンスの実証的研究について述べる。
まず、ConceptNetを利用して既存の対話データセットから共通感覚対話を自動的に抽出する。
次に、対話的な環境での社会的常識を示すことを目的とした、25K対話を備えた対話データセットを新たに収集する。
論文 参考訳(メタデータ) (2021-09-14T04:32:09Z) - Is this Dialogue Coherent? Learning from Dialogue Acts and Entities [82.44143808977209]
スイッチボード・コヒーレンス・コーパス(SWBD-Coh)コーパス(Switchboard Coherence corpus,SWBD-Coh)を作成する。
コーパスの統計的分析は、ターンコヒーレンス知覚がエンティティの分布パターンによってどのように影響を受けるかを示している。
DA情報とエンティティ情報を組み合わせたモデルでは,応答選択とターンコヒーレンス評価の両面で最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-17T21:02:40Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。