論文の概要: Evaluating Robustness of Dialogue Summarization Models in the Presence
of Naturally Occurring Variations
- arxiv url: http://arxiv.org/abs/2311.08705v1
- Date: Wed, 15 Nov 2023 05:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:14:33.786231
- Title: Evaluating Robustness of Dialogue Summarization Models in the Presence
of Naturally Occurring Variations
- Title(参考訳): 自然発生変動の存在下での対話要約モデルのロバスト性評価
- Authors: Ankita Gupta, Chulaka Gunasekara, Hui Wan, Jatin Ganhotra, Sachindra
Joshi, Marina Danilevsky
- Abstract要約: 実生活変動が最先端の対話要約モデルに与える影響を系統的に検討する。
発話レベルの摂動は、誤りや言語の変化によって個々の発話を変更するもので、対話レベルの摂動は非形式的交換を加えるものである。
細調整モデルと命令調整モデルの両方が入力のバリエーションの影響を受けており、後者はより感受性が高い。
- 参考スコア(独自算出の注目度): 13.749495524988774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dialogue summarization task involves summarizing long conversations while
preserving the most salient information. Real-life dialogues often involve
naturally occurring variations (e.g., repetitions, hesitations) and existing
dialogue summarization models suffer from performance drop on such
conversations. In this study, we systematically investigate the impact of such
variations on state-of-the-art dialogue summarization models using publicly
available datasets. To simulate real-life variations, we introduce two types of
perturbations: utterance-level perturbations that modify individual utterances
with errors and language variations, and dialogue-level perturbations that add
non-informative exchanges (e.g., repetitions, greetings). We conduct our
analysis along three dimensions of robustness: consistency, saliency, and
faithfulness, which capture different aspects of the summarization model's
performance. We find that both fine-tuned and instruction-tuned models are
affected by input variations, with the latter being more susceptible,
particularly to dialogue-level perturbations. We also validate our findings via
human evaluation. Finally, we investigate if the robustness of fine-tuned
models can be improved by training them with a fraction of perturbed data and
observe that this approach is insufficient to address robustness challenges
with current models and thus warrants a more thorough investigation to identify
better solutions. Overall, our work highlights robustness challenges in
dialogue summarization and provides insights for future research.
- Abstract(参考訳): 対話要約タスクは、最も健全な情報を保持しながら長い会話を要約する。
実生活の対話は、しばしば自然発生のバリエーション(繰り返し、迷信など)と既存の対話要約モデルがそのような会話のパフォーマンス低下に苦しむ。
本研究では,公開データセットを用いた対話要約モデルにおける変動の影響を体系的に検討する。
実生活の変動をシミュレートするため, 発話レベルの摂動は, 誤りや言語の変化で個々の発話を変更するもので, 対話レベルの摂動は非形式的交換(繰り返し, 挨拶など)を付加するものである。
我々は,要約モデルの性能の異なる側面を捉えた3次元のロバスト性(一貫性,敬礼,忠実性)の分析を行う。
微調整モデルと命令調整モデルの両方が入力変動の影響を受けており、後者は特に対話レベルの摂動に対してより感受性が高い。
また,人的評価による評価も行った。
最後に, 微調整モデルのロバスト性が, ごくわずかなデータでトレーニングすることで向上できるかどうかを検証し, このアプローチが現在のモデルでのロバスト性問題に対処するには不十分であることを確認した。
全体としては,対話要約における堅牢性の問題に注目し,今後の研究への洞察を提供する。
関連論文リスト
- SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - A Focused Study on Sequence Length for Dialogue Summarization [68.73335643440957]
既存のモデルの出力とそれに対応する人間の参照の長さの差を解析する。
モデル設定を比較し,要約長予測のための有能な特徴を同定する。
第3に,要約長を十分に組み込むことができれば,既存のモデルに顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-09-24T02:49:48Z) - Learning Locality and Isotropy in Dialogue Modeling [28.743212772593335]
異方性と対話性のある特徴空間を構築するための単純な対話表現キャリブレーション法,すなわちSimDRCを提案する。
実験の結果,本手法は3つの対話課題における現在の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-05-29T06:48:53Z) - Coreference-Aware Dialogue Summarization [24.986030179701405]
ニューラルネットワークの抽象的対話要約モデルにおいて,コア参照情報を明示的に組み込む手法について検討する。
実験結果から,提案手法は最先端性能を実現することが示された。
事実的正当性の評価結果から,このようなコア参照認識モデルの方が,インターロケータ間の情報フローの追跡に優れていることが示唆された。
論文 参考訳(メタデータ) (2021-06-16T05:18:50Z) - Robustness Testing of Language Understanding in Dialog Systems [33.30143655553583]
自然言語理解モデルの頑健性に関して総合的な評価と分析を行う。
本稿では,実世界の対話システムにおける言語理解に関連する3つの重要な側面,すなわち言語多様性,音声特性,雑音摂動について紹介する。
対話システムにおける堅牢性問題をテストするための自然摂動を近似するモデル非依存型ツールキットLAUGを提案する。
論文 参考訳(メタデータ) (2020-12-30T18:18:47Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。