論文の概要: SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2605.16650v1
- Date: Fri, 15 May 2026 21:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.894796
- Title: SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs
- Title(参考訳): SKG-Eval:インクリメンタルセマンティック知識グラフによる多言語対話のステートフル評価
- Authors: Avijit Shil, Suman Samui,
- Abstract要約: SKG-Evalは、対話を進化するセマンティック知識グラフとしてモデル化する準決定論的かつ解釈可能なフレームワークである。
本研究では,SKG-Evalが人間の判断と高い相関を達成し,会話における長距離不整合の検出を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating multi-turn dialogue systems remains challenging because response quality depends not only on the current prompt, but also on previously established entities, claims, and conversational commitments. Existing automatic evaluators, including LLM-as-a-judge frameworks and embedding-based metrics, largely rely on flat or turn-isolated representations, making them less effective at detecting long-range issues such as contradiction, topic drift, and entity inconsistency. To address this, we propose SKG-Eval, a quasi-deterministic and interpretable framework that models dialogue as an evolving Semantic Knowledge Graph (SKG) of entities, relations, and commitments across turns. The framework incrementally updates the graph through structured triple extraction and computes three complementary signals: (i) local relevance, measuring alignment with the current prompt and optional reference; (ii) historical consistency, evaluating how newly introduced information connects to prior conversational context using graph-based and embedding-driven signals; and (iii) logical coherence, assessed by a geometric contradiction engine that detects cross-turn conflicts without relying on NLI models or LLM judges. These signals are adaptively fused and aggregated into a length-invariant session score via recency-weighted trend analysis. Across multiple benchmarks, SKG-Eval achieves higher correlation with human judgments and substantially improves detection of long-range inconsistencies in extended conversations. In addition, the framework produces explicit contradiction certificates and deterministic scores for fixed inputs, enabling reproducible and auditable evaluation. Overall, our results suggest that structured externalized state tracking through semantic knowledge graphs provides a scalable alternative to implicit reasoning in LLM-based dialogue evaluators.
- Abstract(参考訳): 応答品質は現在のプロンプトだけでなく、以前に確立されたエンティティ、クレーム、会話のコミットメントにも依存するため、マルチターン対話システムの評価は依然として困難である。
LLM-as-a-judgeフレームワークや埋め込みベースのメトリクスを含む既存の自動評価器は、主にフラットあるいはターンアイソレーションされた表現に依存しており、矛盾やトピックのドリフト、エンティティの不整合といった長距離問題の検出に効果が低い。
そこで我々は,SKG-Evalを提案する。SKG-Evalは準決定論的かつ解釈可能なフレームワークで,対話を,各ターンにまたがるエンティティ,関係,コミットメントの進化的セマンティック知識グラフ(SKG)としてモデル化する。
このフレームワークは、構造化三重抽出を通じてグラフを漸進的に更新し、3つの補完信号を計算する。
i) 局所的関連性,現行のプロンプト及びオプション参照との整合性の測定
(二 グラフベース及び埋め込み駆動信号を用いて、新たに導入した情報が先行会話状況とどのように結びつくかを評価する歴史整合性
三 論理コヒーレンス 幾何矛盾エンジンにより評価され、NLIモデルやLLMの判断に頼ることなく、交互衝突を検出する。
これらの信号は適応的に融合され、電流重み付けトレンド分析により長不変セッションスコアに集約される。
複数のベンチマークにおいて、SKG-Evalは人間の判断と高い相関を達成し、会話の拡張における長距離不整合の検出を大幅に改善する。
さらに、このフレームワークは、固定された入力に対する明確な矛盾証明書と決定論的スコアを生成し、再現可能で監査可能な評価を可能にする。
以上の結果から,意味知識グラフを用いた構造化外部状態追跡は,LLMに基づく対話評価器における暗黙的推論に代わるスケーラブルな代替手段である可能性が示唆された。
関連論文リスト
- Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。
Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。
本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文 参考訳(メタデータ) (2026-03-17T17:58:44Z) - AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - Enhancing Dialogue Systems with Discourse-Level Understanding Using Deep Canonical Correlation Analysis [0.0]
談話レベルの理解のために,Deep Canonical correlation Analysisを統合した新しいフレームワークを提案する。
このフレームワークは会話トークンを学習し、発話と周囲の文脈の関係を捉える。
Ubuntuダイアログコーパスの実験では、応答選択の大幅な向上が示されている。
論文 参考訳(メタデータ) (2025-04-12T06:19:08Z) - Measuring the Robustness of Reference-Free Dialogue Evaluation Systems [12.332146893333952]
敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。
DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
論文 参考訳(メタデータ) (2025-01-12T06:41:52Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Unsupervised Robust Cross-Lingual Entity Alignment via Neighbor Triple Matching with Entity and Relation Texts [17.477542644785483]
言語間エンティティアライメント(EA)は、異なる言語間での複数の知識グラフ(KG)の統合を可能にする。
近隣の3重マッチング戦略により、エンティティレベルとリレーレベルアライメントを共同で実行するEAパイプライン。
論文 参考訳(メタデータ) (2024-07-22T12:25:48Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。