論文の概要: Investigating Content Planning for Navigating Trade-offs in
Knowledge-Grounded Dialogue
- arxiv url: http://arxiv.org/abs/2402.02077v1
- Date: Sat, 3 Feb 2024 08:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 22:29:36.564085
- Title: Investigating Content Planning for Navigating Trade-offs in
Knowledge-Grounded Dialogue
- Title(参考訳): ナレッジグラウンド対話におけるトレードオフのナビゲートのためのコンテンツ計画の検討
- Authors: Kushal Chawla, Hannah Rashkin, Gaurav Singh Tomar, David Reitter
- Abstract要約: 応答生成の前に明確なコンテンツプランニングは、モデルがこの課題に対処するのに役立ちますか?
コンテンツプランニングは有望であることを示しているが、このトレードオフを実際にナビゲートできるかどうかについては、結果がまちまちだ。
自動測度への過度な適合と、これらの測度を人間の判断に向け、よりよく校正する必要があることから、これがどのように引き起こされるかについて議論する。
- 参考スコア(独自算出の注目度): 8.986338385828011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-grounded dialogue generation is a challenging task because it
requires satisfying two fundamental yet often competing constraints: being
responsive in a manner that is specific to what the conversation partner has
said while also being attributable to an underlying source document. In this
work, we bring this trade-off between these two objectives (specificity and
attribution) to light and ask the question: Can explicit content planning
before the response generation help the model to address this challenge? To
answer this question, we design a framework called PLEDGE, which allows us to
experiment with various plan variables explored in prior work, supporting both
metric-agnostic and metric-aware approaches. While content planning shows
promise, our results on whether it can actually help to navigate this trade-off
are mixed -- planning mechanisms that are metric-aware (use automatic metrics
during training) are better at automatic evaluations but underperform in human
judgment compared to metric-agnostic mechanisms. We discuss how this may be
caused by over-fitting to automatic metrics and the need for future work to
better calibrate these metrics towards human judgment. We hope the observations
from our analysis will inform future work that aims to apply content planning
in this context.
- Abstract(参考訳): 知識に基づく対話生成は、2つの基本的かつしばしば競合する制約を満たす必要があるため、困難なタスクである。
この作業では、これらの2つの目標(特異性と属性)のトレードオフを明確化して、次のような質問を投げかけます。 応答生成前の明確なコンテンツ計画は、モデルがこの課題に対処するのに役立ちますか?
そこで我々はPLEDGEというフレームワークを設計し、事前の作業で探索された様々なプラン変数を実験し、メトリックに依存しないアプローチとメトリック認識アプローチの両方をサポートする。
メトリクス認識(トレーニング中に自動メトリクスを使用する)の計画メカニズムは、自動評価では優れていますが、メトリクス非依存のメカニズムに比べ、人間の判断では低調です。
自動測度への過度な適合と、これらの測度を人間の判断に合わせるための今後の作業の必要性から、これがどのように引き起こされるのかを論じる。
この状況にコンテンツプランニングを適用することを目的とした今後の作業について,分析から得られた知見をご報告いたします。
関連論文リスト
- FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - Introducing "Forecast Utterance" for Conversational Data Science [2.3894779000840503]
本稿では,Forecast Utteranceという新しいコンセプトを紹介する。
次に,これらの発話からユーザの予測目標を自動的かつ正確に解釈することに集中する。
具体的には、各スロットが目標予測タスクの特定の側面に対応するスロット充足問題として、タスクをフレーム化する。
1) エンティティ抽出 (EE) と 2) 質問応答 (QA) の2つの手法を用いる。
論文 参考訳(メタデータ) (2023-09-07T17:41:41Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Rethinking Trajectory Forecasting Evaluation [42.228191984697006]
私たちは一歩後退して、現在の軌跡予測指標を批判的に評価します。
本稿では,予測が展開されているシステムにおけるパフォーマンスの指標として,タスク対応メトリクスを提案する。
論文 参考訳(メタデータ) (2021-07-21T18:20:03Z) - Data-QuestEval: A Referenceless Metric for Data to Text Semantic
Evaluation [33.672301484161416]
QuestEvalは、予測と構造化された入力データを直接比較し、質問や回答を自動的に行うメトリクスである。
マルチモーダルQG/QAのトレーニングを可能にする合成マルチモーダルコーポラを構築します。
基準なし、マルチモーダルで、E2EおよびWebNLGベンチマークで人間の判断と最新の相関関係を得ます。
論文 参考訳(メタデータ) (2021-04-15T16:10:46Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。