論文の概要: FaithDial: A Faithful Benchmark for Information-Seeking Dialogue
- arxiv url: http://arxiv.org/abs/2204.10757v1
- Date: Fri, 22 Apr 2022 15:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:19:28.795109
- Title: FaithDial: A Faithful Benchmark for Information-Seeking Dialogue
- Title(参考訳): faithdial:情報参照対話の忠実なベンチマーク
- Authors: Nouha Dziri, Ehsan Kamalloo, Sivan Milton, Osmar Zaiane, Mo Yu,
Edoardo M. Ponti, Siva Reddy
- Abstract要約: We create a new benchmark for hallucination-free dialogues by editing hallucinated response in the Wizard of Wikipedia benchmark。
FaithDialは、発話が忠実かどうかを識別する幻覚批評家の訓練信号として機能することを示す。
FaithDialで訓練されたモデルによって生成された応答は、より解釈可能で、協調的で、エンゲージメントであると見なされる。
- 参考スコア(独自算出の注目度): 30.22047542403673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of information-seeking dialogue is to respond to seeker queries with
natural language utterances that are grounded on knowledge sources. However,
dialogue systems often produce unsupported utterances, a phenomenon known as
hallucination. Dziri et al. (2022)'s investigation of hallucinations has
revealed that existing knowledge-grounded benchmarks are contaminated with
hallucinated responses at an alarming level (>60% of the responses) and models
trained on this data amplify hallucinations even further (>80% of the
responses). To mitigate this behavior, we adopt a data-centric solution and
create FaithDial, a new benchmark for hallucination-free dialogues, by editing
hallucinated responses in the Wizard of Wikipedia (WoW) benchmark. We observe
that FaithDial is more faithful than WoW while also maintaining engaging
conversations. We show that FaithDial can serve as a training signal for: i) a
hallucination critic, which discriminates whether an utterance is faithful or
not, and boosts the performance by 21.1 F1 score on the BEGIN benchmark
compared to existing datasets for dialogue coherence; ii) high-quality dialogue
generation. We benchmark a series of state-of-the-art models and propose an
auxiliary contrastive objective that achieves the highest level of faithfulness
and abstractiveness based on several automated metrics. Further, we find that
the benefits of FaithDial generalize to zero-shot transfer on other datasets,
such as CMU-Dog and TopicalChat. Finally, human evaluation reveals that
responses generated by models trained on FaithDial are perceived as more
interpretable, cooperative, and engaging.
- Abstract(参考訳): 情報探索対話の目標は,知識ソースに基づく自然言語発話による探索クエリに応答することである。
しかし、対話システムは、幻覚として知られる現象である、サポートなしの発話をしばしば生み出す。
dziri et al. (2022) による幻覚に関する調査により、既存の知識に基づくベンチマークは警告レベル(回答の60%以上)で幻覚反応で汚染され、このデータに基づいてトレーニングされたモデルは幻覚をさらに増幅する(回答の80%以上)。
この行動を緩和するために、ウィキペディアのウィザード(WoW)ベンチマークで幻覚応答を編集することで、データ中心のソリューションを採用し、幻覚のない対話のための新しいベンチマークであるFaithDialを作成します。
我々は、信心はワオよりも忠実でありながら、熱心な会話を継続しているのを観察する。
FaithDialは以下の訓練信号として機能することを示す。
一 発話が忠実であるか否かを判別し、既存の対話コヒーレンスデータセットと比較して、BEGINベンチマークにおける21.1F1スコアの性能を高める幻覚批評家
ii) 高品質な対話生成。
我々は、一連の最先端モデルをベンチマークし、複数の自動メトリクスに基づいて最高レベルの忠実度と抽象性を達成できる補助的コントラスト目標を提案する。
さらに,信頼のメリットは,cmu-dogや topicalchat など,他のデータセットに対するゼロショット転送に一般化する。
最後に、人間による評価により、信条に基づいて訓練されたモデルによって生成された反応は、より解釈可能、協力的、および関与的であると認識される。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - A Cause-Effect Look at Alleviating Hallucination of Knowledge-grounded Dialogue Generation [51.53917938874146]
我々は,対話知識の相互作用を利用して,KGDの幻覚を緩和するための解決策を提案する。
本手法は,他の対話性能を損なうことなく幻覚を低減できることを示す。
論文 参考訳(メタデータ) (2024-04-04T14:45:26Z) - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-03-01T15:38:55Z) - Diving Deep into Modes of Fact Hallucinations in Dialogue Systems [2.8360662552057323]
知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、通常、事実幻覚に悩まされる。
我々は、応答を生成しながら、誤った内容を制御する微妙な信号を提供するエンティティレベルの幻覚検出システムを構築した。
論文 参考訳(メタデータ) (2023-01-11T13:08:57Z) - You Truly Understand What I Need: Intellectual and Friendly Dialogue
Agents grounding Knowledge and Persona [30.30372603825815]
外部知識とペルソナを同時に活用する効果的な対話エージェントを提案する。
エージェントは、ポリエンコーダで実装された候補スコアで回答を生成するために使用する適切な知識とペルソナを選択する。
我々はペルソナ知識チャットの実験を行い、グラウンドおよび生成タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-06T06:47:21Z) - RHO ($\rho$): Reducing Hallucination in Open-domain Dialogues with
Knowledge Grounding [57.46495388734495]
本稿では、知識グラフ(KG)からリンクされたエンティティと関係述語を表現したRHO(rho$)を提案する。
本稿では,(1)テキスト埋め込みと対応するKG埋め込みを組み合わせるための局所知識基盤,(2)注目機構を介してRHOにマルチホップ推論能力を持たせるためのグローバル知識基盤を提案する。
論文 参考訳(メタデータ) (2022-12-03T10:36:34Z) - Retrieval Augmentation Reduces Hallucination in Conversation [49.35235945543833]
知識に基づく対話のためのループ型ニューラルネットワークアーキテクチャの利用を検討する。
我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2021-04-15T16:24:43Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。