論文の概要: Elastic Weight Removal for Faithful and Abstractive Dialogue Generation
- arxiv url: http://arxiv.org/abs/2303.17574v1
- Date: Thu, 30 Mar 2023 17:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:35:10.605999
- Title: Elastic Weight Removal for Faithful and Abstractive Dialogue Generation
- Title(参考訳): 忠実かつ抽象的な対話生成のための弾性重み除去
- Authors: Nico Daheim, Nouha Dziri, Mrinmaya Sachan, Iryna Gurevych, Edoardo M.
Ponti
- Abstract要約: 対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
- 参考スコア(独自算出の注目度): 61.40951756070646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ideally, dialogue systems should generate responses that are faithful to the
knowledge contained in relevant documents. However, many models generate
hallucinated responses instead that contradict it or contain unverifiable
information. To mitigate such undesirable behaviour, it has been proposed to
fine-tune a `negative expert' on negative examples and subtract its parameters
from those of a pre-trained model. However, intuitively, this does not take
into account that some parameters are more responsible than others in causing
hallucinations. Thus, we propose to weigh their individual importance via (an
approximation of) the Fisher Information matrix, which measures the uncertainty
of their estimate. We call this method Elastic Weight Removal (EWR). We
evaluate our method -- using different variants of Flan-T5 as a backbone
language model -- on multiple datasets for information-seeking dialogue
generation and compare our method with state-of-the-art techniques for
faithfulness, such as CTRL, Quark, DExperts, and Noisy Channel reranking.
Extensive automatic and human evaluation shows that EWR systematically
increases faithfulness at minor costs in terms of other metrics. However, we
notice that only discouraging hallucinations may increase extractiveness, i.e.
shallow copy-pasting of document spans, which can be undesirable. Hence, as a
second main contribution, we show that our method can be extended to
simultaneously discourage hallucinations and extractive responses. We publicly
release the code for reproducing EWR and all baselines.
- Abstract(参考訳): 理想的には、対話システムは関連する文書に含まれる知識に忠実な応答を生成するべきである。
しかし、多くのモデルはそれと矛盾したり、検証不能な情報を含む幻覚反応を生成する。
このような望ましくない行動を緩和するため、負の例について「負の専門家」を微調整し、事前訓練されたモデルからパラメータを抽出することが提案されている。
しかし直感的には、一部のパラメータが幻覚を引き起こす他のパラメータよりも責任があるとは考えていない。
そこで我々は,その推定の不確かさを計測するフィッシャー情報行列を用いて,その個人的重要性を評価することを提案する。
我々はこの手法を弾性重量除去 (EWR) と呼ぶ。
CTRL,Quark,DExperts,Noisy Channelといった,忠実度の高い最新技術と比較し,情報検索対話生成のための複数のデータセット上で,Flan-T5の異なる変種をバックボーン言語モデルとして評価した。
大規模な自動評価と人的評価は、EWRが他の指標の観点で小さなコストで体系的に忠実さを増すことを示している。
しかし, 幻覚を抑えることだけが抽出性を高めること, すなわち, 文書のコピーペーストが浅いこと, 望ましくないこと, に気づく。
そこで,第2の貢献として,幻覚と抽出反応を同時に抑えるように拡張できることを示す。
EWRとすべてのベースラインを再現するためのコードを公開しています。
関連論文リスト
- F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI [15.314388210699443]
微調整フィデリティF-フィデリティはXAIの堅牢な評価フレームワークである。
その結果, F-Fidelity は, 説明者の信頼度を回復する上で, 事前評価基準を著しく改善することを示した。
また,F-Fidelityの指標を忠実に説明すれば,入力成分の空間性を計算することができることを示す。
論文 参考訳(メタデータ) (2024-10-03T20:23:06Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Diving Deep into Modes of Fact Hallucinations in Dialogue Systems [2.8360662552057323]
知識グラフ(KG)に基づく会話は、しばしば大きな事前訓練されたモデルを使用し、通常、事実幻覚に悩まされる。
我々は、応答を生成しながら、誤った内容を制御する微妙な信号を提供するエンティティレベルの幻覚検出システムを構築した。
論文 参考訳(メタデータ) (2023-01-11T13:08:57Z) - DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations [46.942369532632604]
不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-18T03:11:35Z) - FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization [34.2456005415483]
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
論文 参考訳(メタデータ) (2020-05-07T21:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。