論文の概要: CoReflect: Conversational Evaluation via Co-Evolutionary Simulation and Reflective Rubric Refinement
- arxiv url: http://arxiv.org/abs/2601.12208v1
- Date: Sun, 18 Jan 2026 00:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.505449
- Title: CoReflect: Conversational Evaluation via Co-Evolutionary Simulation and Reflective Rubric Refinement
- Title(参考訳): CoReflect: 共進化シミュレーションとリフレクティブルーブリックリファインメントによる会話評価
- Authors: Yunzhe Li, Richie Yueqi Feng, Tianxin Wei, Chin-Chia Hsu,
- Abstract要約: 本稿では,対話シミュレーションと評価を適応的反復プロセスに統合するCoReflectを紹介する。
会話プランナーは、多様なゴール指向対話を通じてユーザシミュレータをガイドする構造化テンプレートを生成する。
反射分析器はこれらの対話を処理して、系統的な行動パターンを特定し、自動的に評価を洗練させる。
- 参考スコア(独自算出の注目度): 9.643727190176943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating conversational systems in multi-turn settings remains a fundamental challenge. Conventional pipelines typically rely on manually defined rubrics and fixed conversational context$-$a static approach that limits coverage and fails to capture the diverse, emergent behaviors of dialogue models. To address this, we introduce CoReflect (Conversational Evaluation via Co-Evolutionary Simulation and Reflective Rubric Refinement), which unifies dialogue simulation and evaluation into an adaptive, iterative process. CoReflect employs a conversation planner that generates structured templates to guide a user simulator through diverse, goal-directed dialogues. Subsequently, a reflective analyzer processes these dialogues to identify systematic behavioral patterns and automatically refine the evaluation rubrics. Crucially, the insights from the conversation analysis are fed back into the planner to update conversation templates for subsequent iterations. This co-evolution loop ensures that the complexity of test cases and the diagnostic precision of rubrics improve in tandem. By minimizing human intervention, CoReflect provides a scalable and self-refining methodology that allows evaluation protocols to adapt alongside the rapidly advancing capabilities of dialogue models.
- Abstract(参考訳): マルチターン設定における会話システムの評価は、依然として根本的な課題である。
従来のパイプラインは通常、手動で定義されたルーリックと固定された会話コンテキストを$-$aの静的アプローチでカバー範囲を制限し、対話モデルの多様な創発的な振る舞いをキャプチャできない。
これを解決するために,対話シミュレーションと評価を適応的反復的プロセスに統合するCoReflect(共進化的シミュレーションと反射的ルーブリックリファインメントによる会話評価)を導入する。
CoReflectは、多様なゴール指向の対話を通じてユーザシミュレータをガイドする構造化テンプレートを生成する会話プランナを使用している。
その後、リフレクティブアナライザがこれらの対話を処理して、系統的な行動パターンを特定し、評価ルーリックを自動的に洗練する。
重要なのは、会話分析からの洞察がプランナーにフィードバックされ、その後のイテレーションの会話テンプレートを更新します。
この共進化ループは、テストケースの複雑さとルーブリックの診断精度がタンデムで向上することを保証する。
人間の介入を最小限にすることで、CoReflectは、対話モデルの急速に進歩する能力に合わせて評価プロトコルを適応できるスケーラブルで自己修正の方法論を提供する。
関連論文リスト
- Enhancing Goal-oriented Proactive Dialogue Systems via Consistency Reflection and Correction [14.520176577205754]
モデルに依存しない2段階の一貫性反射・補正フレームワークを提案する。
整合性反射の段階では、モデルが生成した応答と対話コンテキストの相違を反映するように促される。
整合性補正の段階では、モデルは対話コンテキストとより整合性のある応答を生成する。
論文 参考訳(メタデータ) (2025-06-16T11:15:21Z) - A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。
既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。
本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T04:22:18Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Controlling Dialogue Generation with Semantic Exemplars [55.460082747572734]
本稿では,経験的応答に現れる意味的フレームを用いて生成をガイドする,経験的対話生成モデルEDGEを提案する。
単語自体の単語ではなく、経験者の意味的フレームに基づく対話生成の制御により、生成した応答の一貫性が向上することを示す。
論文 参考訳(メタデータ) (2020-08-20T17:02:37Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。
事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。
実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文 参考訳(メタデータ) (2020-03-09T15:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。