論文の概要: Structured Information Matters: Incorporating Abstract Meaning Representation into LLMs for Improved Open-Domain Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2404.01129v2
- Date: Sat, 6 Apr 2024 16:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:56:54.125268
- Title: Structured Information Matters: Incorporating Abstract Meaning Representation into LLMs for Improved Open-Domain Dialogue Evaluation
- Title(参考訳): 構造化情報事項:LLMに抽象的意味表現を取り入れたオープンドメイン対話評価の改善
- Authors: Bohao Yang, Kun Zhao, Chen Tang, Liang Zhan, Chenghua Lin,
- Abstract要約: ドメイン固有言語モデル(SLM)と大規模言語モデル(LLM)を用いたオープンドメイン対話評価フレームワークを提案する。
SLMは、拡張意味表現学習のためのゲーティング機構を通じて、対話の抽象的意味表現グラフ情報を明示的に組み込むことができる。
オープンドメイン対話評価タスクの実験結果から,提案手法の優位性を示した。
- 参考スコア(独自算出の注目度): 23.203761925540736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic open-domain dialogue evaluation has attracted increasing attention. Trainable evaluation metrics are commonly trained with true positive and randomly selected negative responses, resulting in a tendency for them to assign a higher score to the responses that share higher content similarity with a given context. However, adversarial negative responses possess high content similarity with the contexts whilst being semantically different. Therefore, existing evaluation metrics are not robust enough to evaluate such responses, resulting in low correlations with human judgments. While recent studies have shown some efficacy in utilizing Large Language Models (LLMs) for open-domain dialogue evaluation, they still encounter challenges in effectively handling adversarial negative examples. In this paper, we propose a simple yet effective framework for open-domain dialogue evaluation, which combines domain-specific language models (SLMs) with LLMs. The SLMs can explicitly incorporate Abstract Meaning Representation (AMR) graph information of the dialogue through a gating mechanism for enhanced semantic representation learning. The evaluation result of SLMs and AMR graph information are plugged into the prompt of LLM, for the enhanced in-context learning performance. Experimental results on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to a wide range of state-of-the-art baselines, especially in discriminating adversarial negative responses. Our code is available at https://github.com/Bernard-Yang/SIMAMR.
- Abstract(参考訳): 自動オープンドメイン対話評価が注目されている。
トレーニング可能な評価指標は、正の反応とランダムに選択された負の反応で訓練され、その結果、与えられた文脈と高い内容の類似性を共有する応答により高いスコアを割り当てる傾向が生じる。
しかし、敵対的負の応答は、意味論的に異なる一方で、文脈と高い内容の類似性を持っている。
したがって、既存の評価指標は、そのような応答を評価するのに十分な堅牢性を持っておらず、その結果、人間の判断との相関が低くなる。
近年の研究では,Large Language Models (LLMs) のオープンドメイン対話評価に有効であることが示されているが,敵の否定例を効果的に扱う上での課題がまだ残っている。
本稿では,ドメイン固有言語モデル(SLM)とLLMを組み合わせた,オープンドメイン対話評価のための簡易かつ効果的なフレームワークを提案する。
SLMは、意味表現学習を強化するためのゲーティング機構を通じて、対話の抽象的意味表現(AMR)グラフ情報を明示的に組み込むことができる。
SLM と AMR グラフ情報の評価結果を LLM のプロンプトにプラグインし,テキスト内学習性能を向上させる。
オープンドメイン対話評価タスクにおける実験結果から,提案手法が最先端のベースラインよりも優れていること,特に敵対的負の応答を識別する上での優位性が確認された。
私たちのコードはhttps://github.com/Bernard-Yang/SIMAMRで利用可能です。
関連論文リスト
- On the Benchmarking of LLMs for Open-Domain Dialogue Evaluation [8.672875654352689]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。
本稿では,現在の評価ベンチマークを批判的に検討し,従来の応答生成器の使用と品質面が,現代のチャットボットの機能を正確に反映できないことを強調した。
論文 参考訳(メタデータ) (2024-07-04T11:14:47Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations [46.942369532632604]
不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-18T03:11:35Z) - Synthesizing Adversarial Negative Responses for Robust Response Ranking
and Evaluation [34.52276336319678]
オープンドメインニューラルダイアログモデルは、応答のランク付けと評価タスクにおいて高い性能を達成している。
コンテンツ類似性への過度な依存は、モデルが不整合の存在に敏感でないようにする。
本稿では,逆負の学習データを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-10T16:20:55Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。