論文の概要: CHARP: Conversation History AwaReness Probing for Knowledge-grounded Dialogue Systems
- arxiv url: http://arxiv.org/abs/2405.15110v1
- Date: Fri, 24 May 2024 00:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:38:12.502015
- Title: CHARP: Conversation History AwaReness Probing for Knowledge-grounded Dialogue Systems
- Title(参考訳): CHARP:知識接地対話システムのための会話履歴Awareness Probing
- Authors: Abbas Ghaddar, David Alfonso-Hermelo, Philippe Langlais, Mehdi Rezagholizadeh, Boxing Chen, Prasanna Parthasarathi,
- Abstract要約: 本稿では,会話モデルにおける幻覚評価の改善を目的とした診断テストセットCHARPを紹介する。
広範に分析した結果,CHARPでは会話履歴に効果的に参加できないため,モデルの性能が低下していることが判明した。
以上の結果から,知識基底対話におけるデータセット作成と幻覚評価にかなりの貢献の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 41.40239963737615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we dive deep into one of the popular knowledge-grounded dialogue benchmarks that focus on faithfulness, FaithDial. We show that a significant portion of the FaithDial data contains annotation artifacts, which may bias models towards completely ignoring the conversation history. We therefore introduce CHARP, a diagnostic test set, designed for an improved evaluation of hallucinations in conversational model. CHARP not only measures hallucination but also the compliance of the models to the conversation task. Our extensive analysis reveals that models primarily exhibit poor performance on CHARP due to their inability to effectively attend to and reason over the conversation history. Furthermore, the evaluation methods of FaithDial fail to capture these shortcomings, neglecting the conversational history. Our findings indicate that there is substantial room for contribution in both dataset creation and hallucination evaluation for knowledge-grounded dialogue, and that CHARP can serve as a tool for monitoring the progress in this particular research area. CHARP is publicly available at https://huggingface.co/datasets/huawei-noah/CHARP
- Abstract(参考訳): 本研究では,信頼度を重視した知識基盤型ダイアログベンチマークであるFaithDialについて詳しく検討する。
FaithDialデータの大部分にアノテーションアーティファクトが含まれており、会話履歴を完全に無視するモデルに偏りが生じる可能性がある。
そこで我々は,会話モデルにおける幻覚評価の改善を目的とした診断テストセットCHARPを導入する。
CHARPは幻覚だけでなく、会話タスクに対するモデルのコンプライアンスも測定する。
広範に分析した結果,CHARPでは会話履歴に効果的に参加できないため,モデルの性能が低下していることが判明した。
さらに、FithDialの評価手法はこれらの欠点を捉えず、会話の歴史を無視する。
本研究は,知識基盤対話におけるデータセット作成と幻覚評価に多大な貢献の余地があることを示唆し,CHARPが特定の研究領域の進捗をモニタリングするためのツールとして機能できることを示唆している。
CHARPはhttps://huggingface.co/datasets/huawei-noah/CHARPで公開されている。
関連論文リスト
- A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - History-Aware Conversational Dense Retrieval [31.203399110612388]
本稿では,コンテキスト依存型クエリ再構成と監視信号の自動マイニングという2つのアイデアを取り入れた,履歴認識型会話用Dense Retrieval(HAConvDR)システムを提案する。
2つの公開対話型検索データセットの実験は、HAConvDRの履歴モデリング機能の改善を実証している。
論文 参考訳(メタデータ) (2024-01-30T01:24:18Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z) - Diving Deep into Modes of Fact Hallucinations in Dialogue Systems [2.8360662552057323]
知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、通常、事実幻覚に悩まされる。
我々は、応答を生成しながら、誤った内容を制御する微妙な信号を提供するエンティティレベルの幻覚検出システムを構築した。
論文 参考訳(メタデータ) (2023-01-11T13:08:57Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - FaithDial: A Faithful Benchmark for Information-Seeking Dialogue [30.22047542403673]
We create a new benchmark for hallucination-free dialogues by editing hallucinated response in the Wizard of Wikipedia benchmark。
FaithDialは、発話が忠実かどうかを識別する幻覚批評家の訓練信号として機能することを示す。
FaithDialで訓練されたモデルによって生成された応答は、より解釈可能で、協調的で、エンゲージメントであると見なされる。
論文 参考訳(メタデータ) (2022-04-22T15:25:12Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - A Corpus of Controlled Opinionated and Knowledgeable Movie Discussions
for Training Neural Conversation Models [15.77024720697733]
映画討論の分野において,各対話が事前に特定された事実や意見に基づいている新しいラベル付き対話データセットを導入する。
本研究は,参加者が与えられた事実と意見プロファイルに忠実に従属する上で,収集した対話を徹底的に検証し,この点の一般的な品質が高いことを確認する。
我々は、このデータに基づいて訓練されたエンドツーエンドの自己注意デコーダモデルをベースラインとして導入し、意見応答を生成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T11:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。