論文の概要: Commonsense Generation and Evaluation for Dialogue Systems using Large Language Models
- arxiv url: http://arxiv.org/abs/2506.19483v1
- Date: Tue, 24 Jun 2025 10:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.588239
- Title: Commonsense Generation and Evaluation for Dialogue Systems using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた対話システムの常識生成と評価
- Authors: Marcos Estecha-Garitagoitia, Chen Zhang, Mario Rodríguez-Cantelar, Luis Fernando D'Haro,
- Abstract要約: 本稿では,多種多様なコモンセンス関係に基づく対話システムにおけるターンレベルデータ拡張の課題について検討する。
提案手法は,事前学習されたLarge Language Models (LLM) の拡張知識とゼロショット機能を利用して命令に従う。
予備的な結果から,本手法は対話システムにおける常識推論と評価にLLMを効果的に活用することが示唆された。
- 参考スコア(独自算出の注目度): 8.556799193001341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper provides preliminary results on exploring the task of performing turn-level data augmentation for dialogue system based on different types of commonsense relationships, and the automatic evaluation of the generated synthetic turns. The proposed methodology takes advantage of the extended knowledge and zero-shot capabilities of pretrained Large Language Models (LLMs) to follow instructions, understand contextual information, and their commonsense reasoning capabilities. The approach draws inspiration from methodologies like Chain-of-Thought (CoT), applied more explicitly to the task of prompt-based generation for dialogue-based data augmentation conditioned on commonsense attributes, and the automatic evaluation of the generated dialogues. To assess the effectiveness of the proposed approach, first we extracted 200 randomly selected partial dialogues, from 5 different well-known dialogue datasets, and generate alternative responses conditioned on different event commonsense attributes. This novel dataset allows us to measure the proficiency of LLMs in generating contextually relevant commonsense knowledge, particularly up to 12 different specific ATOMIC [10] database relations. Secondly, we propose an evaluation framework to automatically detect the quality of the generated dataset inspired by the ACCENT [26] metric, which offers a nuanced approach to assess event commonsense. However, our method does not follow ACCENT's complex eventrelation tuple extraction process. Instead, we propose an instruction-based prompt for each commonsense attribute and use state-of-the-art LLMs to automatically detect the original attributes used when creating each augmented turn in the previous step. Preliminary results suggest that our approach effectively harnesses LLMs capabilities for commonsense reasoning and evaluation in dialogue systems.
- Abstract(参考訳): 本稿では,異なる種類のコモンセンス関係に基づく対話システムにおけるターンレベルデータ拡張作業の予備的結果と,生成した合成ターンの自動評価について述べる。
提案手法は,事前学習されたLarge Language Models (LLM) の拡張知識とゼロショット機能を利用して,指示に従うこと,文脈情報を理解すること,コモンセンス推論機能を利用する。
このアプローチはChain-of-Thought (CoT)のような方法論からインスピレーションを得ており、コモンセンス属性に基づいて条件付けられた対話ベースのデータ拡張のためのプロンプトベース生成のタスクに、より明示的に適用され、生成された対話を自動的に評価する。
提案手法の有効性を評価するため,まず5つのよく知られた対話データセットからランダムに選択された200個の部分対話を抽出し,異なるイベントコモンセンス属性を条件とした代替応答を生成する。
この新たなデータセットは,特に12種類の特定のATOMIC[10]データベース関係において,文脈に関連のあるコモンセンス知識を生成する上でのLLMの習熟度を計測することを可能にする。
次に,ACCENT [26]メトリックにインスパイアされた生成データセットの品質を自動的に検出する評価フレームワークを提案する。
しかし,本手法はACCENTの複雑なイベントレレーションタプル抽出プロセスに従わない。
代わりに,各コモンセンス属性に対する命令ベースのプロンプトを提案し,前ステップで各拡張ターンを作成する際に使用する元の属性を自動的に検出する。
予備的な結果から,本手法は対話システムにおける常識推論と評価にLLMを効果的に活用することが示唆された。
関連論文リスト
- Bottom-Up Synthesis of Knowledge-Grounded Task-Oriented Dialogues with Iteratively Self-Refined Prompts [19.73376945990922]
ボトムアップな会話合成手法を導入し、まずQAペアを生成し、その後にコヒーレントな対話に結合する。
この構造は、プロプライエタリな知識を含まない段階における非局所モデルの使用を可能にする。
人的・自動的な評価は、我々のアプローチがより現実的で高品質な対話を生み出すことを示している。
論文 参考訳(メタデータ) (2025-04-19T18:25:53Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Achieving Conversational Goals with Unsupervised Post-hoc Knowledge
Injection [37.15893335147598]
現在のニューラルダイアログモデルの制限は、生成された応答における特異性と情報性の欠如に悩まされる傾向があることである。
本稿では,対話履歴と既存の対話モデルから初期応答の両方を条件とした,多様な知識スニペットの集合を検索する,ポストホックな知識注入手法を提案する。
我々は,各検索したスニペットを,勾配に基づく復号法を用いて初期応答に個別に注入し,教師なしランキングステップで最終応答を選択する複数の候補応答を構築する。
論文 参考訳(メタデータ) (2022-03-22T00:42:27Z) - Commonsense-Focused Dialogues for Response Generation: An Empirical
Study [39.49727190159279]
対話応答生成におけるコモンセンスの実証的研究について述べる。
まず、ConceptNetを利用して既存の対話データセットから共通感覚対話を自動的に抽出する。
次に、対話的な環境での社会的常識を示すことを目的とした、25K対話を備えた対話データセットを新たに収集する。
論文 参考訳(メタデータ) (2021-09-14T04:32:09Z) - Retrieval-Free Knowledge-Grounded Dialogue Response Generation with
Adapters [52.725200145600624]
軽量アダプタで事前学習した言語モデルに事前知識を注入し、検索プロセスをバイパスする KnowExpert を提案する。
実験結果から,KnowExpertは検索ベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2021-05-13T12:33:23Z) - Evaluating Groundedness in Dialogue Systems: The BEGIN Benchmark [29.722504033424382]
知識ベースの対話エージェントは、Wikipediaページなどの外部に提供される背景情報に基づいて会話を行うように設計されたシステムです。
BEGIN(Benchmark for Evaluation of Grounded Interaction)について紹介します。
beginは、言語モデルに基づく対話システムによって生成された8113の対話ターンからなり、システムの応答と背景情報の関係を人間の注釈で指定する。
論文 参考訳(メタデータ) (2021-04-30T20:17:52Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。