論文の概要: Pointwise Mutual Information Based Metric and Decoding Strategy for
Faithful Generation in Document Grounded Dialogs
- arxiv url: http://arxiv.org/abs/2305.12191v2
- Date: Fri, 1 Dec 2023 10:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:43:54.833362
- Title: Pointwise Mutual Information Based Metric and Decoding Strategy for
Faithful Generation in Document Grounded Dialogs
- Title(参考訳): 文書接地ダイアログにおける有意な生成のためのポイントワイズ相互情報に基づくメトリクスとデコード戦略
- Authors: Yatin Nandwani and Vineet Kumar and Dinesh Raghu and Sachindra Joshi
and Luis A. Lastras
- Abstract要約: 既存のメトリクスは、生成されたレスポンスとドキュメントの内容の類似度を測定します。
本稿では,生成した応答とソース文書間のPMI(Conditional Point-wise Mutual Information)を利用する新しいメトリクスを提案する。
PMIは、文書が生成した応答に影響を与える範囲を定量化する。
我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
- 参考スコア(独自算出の注目度): 17.691689809414843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major concern in using deep learning based generative models for
document-grounded dialogs is the potential generation of responses that are not
\textit{faithful} to the underlying document. Existing automated metrics used
for evaluating the faithfulness of response with respect to the grounding
document measure the degree of similarity between the generated response and
the document's content. However, these automated metrics are far from being
well aligned with human judgments. Therefore, to improve the measurement of
faithfulness, we propose a new metric that utilizes (Conditional) Point-wise
Mutual Information (PMI) between the generated response and the source
document, conditioned on the dialogue. PMI quantifies the extent to which the
document influences the generated response -- with a higher PMI indicating a
more faithful response. We build upon this idea to create a new decoding
technique that incorporates PMI into the response generation process to predict
more faithful responses. Our experiments on the BEGIN benchmark demonstrate an
improved correlation of our metric with human evaluation. We also show that our
decoding technique is effective in generating more faithful responses when
compared to standard decoding techniques on a set of publicly available
document-grounded dialog datasets.
- Abstract(参考訳): 深層学習に基づくダイアログ生成モデルを使用する際の大きな懸念は、基礎となるドキュメントに対するtextit{faithful} ではない応答の潜在的な生成である。
接地文書に対する応答の忠実性を評価するための既存の自動化指標は、生成された応答と文書の内容との類似度を測定する。
しかし、これらの自動メトリクスは人間の判断とよく一致していない。
そこで本研究では,信頼度の測定を改善するために,生成した応答とソース文書間の(連続的な)ポイントワイド相互情報(PMI)を利用する新たな指標を提案する。
PMIは、ドキュメントが生成したレスポンスに影響を与える範囲を定量化し、より高いPMIはより忠実なレスポンスを示す。
我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
BEGINベンチマーク実験では,測定値と評価値との相関性が改善された。
また,我々のデコーディング手法は,公に利用可能なドキュメント・グラウンド・ダイアログデータセット上での標準デコーディング手法と比較して,より忠実な応答を生成するのに有効であることを示した。
関連論文リスト
- CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。
実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:08:16Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Using Textual Interface to Align External Knowledge for End-to-End
Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。
我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文 参考訳(メタデータ) (2023-05-23T05:48:21Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Context Matters in Semantically Controlled Language Generation for
Task-oriented Dialogue Systems [6.1478669848771546]
本研究は,タスク指向対話における文脈言語生成を実現するために,事前学習モデルによって符号化された対話履歴情報と,現在のシステム発話の意味表現とを組み合わせる。
我々は、事前学習されたマルチコンテキスト・コンベRTモデルを、スクラッチから訓練されたモデルにおける文脈表現に利用し、事前学習されたGPT-2から適応したモデルにおいて、直前のユーザ発話を文脈生成に活用する。
論文 参考訳(メタデータ) (2021-11-28T11:48:02Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。