論文の概要: When F1 Fails: Granularity-Aware Evaluation for Dialogue Topic Segmentation
- arxiv url: http://arxiv.org/abs/2512.17083v1
- Date: Thu, 18 Dec 2025 21:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.179674
- Title: When F1 Fails: Granularity-Aware Evaluation for Dialogue Topic Segmentation
- Title(参考訳): F1が失敗した場合:対話トピックセグメンテーションのための粒度認識評価
- Authors: Michael H. Coen,
- Abstract要約: 本稿では,境界密度とセグメントコヒーレンスを主基準として扱う対話トピックセグメンテーションの評価手法を提案する。
対話セグメンテーションベンチマークで報告された性能差は、モデル品質ではなく、アノテーションミスマッチと疎境界ラベルによって駆動されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogue topic segmentation supports summarization, retrieval, memory management, and conversational continuity. Despite decades of prior work, evaluation practice in dialogue topic segmentation remains dominated by strict boundary matching and F1-based metrics, even as modern LLM-based conversational systems increasingly rely on segmentation to manage conversation history beyond the model's fixed context window, where unstructured context accumulation degrades efficiency and coherence. This paper introduces an evaluation objective for dialogue topic segmentation that treats boundary density and segment coherence as primary criteria, alongside window-tolerant F1 (W-F1). Through extensive cross-dataset empirical evaluation, we show that reported performance differences across dialogue segmentation benchmarks are driven not by model quality, but by annotation granularity mismatches and sparse boundary labels. This indicates that many reported improvements arise from evaluation artifacts rather than improved boundary detection. We evaluated multiple, structurally distinct dialogue segmentation strategies across eight dialogue datasets spanning task-oriented, open-domain, meeting-style, and synthetic interactions. Across these settings, we observe high segment coherence combined with extreme oversegmentation relative to sparse labels, producing misleadingly low exact-match F1 scores. We show that topic segmentation is best understood as selecting an appropriate granularity rather than predicting a single correct boundary set. We operationalize this view by explicitly separating boundary scoring from boundary selection.
- Abstract(参考訳): 対話トピックセグメンテーションは要約、検索、メモリ管理、会話継続をサポートする。
これまでの数十年の作業にもかかわらず、対話トピックセグメンテーションにおける評価プラクティスは、厳密な境界マッチングとF1ベースのメトリクスによって支配され続けており、現代のLLMベースの会話システムは、非構造化コンテキストの蓄積が効率と一貫性を低下させるような、モデルの固定されたコンテキストウインドウを超えて会話履歴を管理するためにセグメンテーションに依存している。
本稿では,ウィンドウ耐性F1(W-F1)とともに,境界密度とセグメントコヒーレンスを主基準として扱う対話トピックセグメンテーションの評価手法を提案する。
対話セグメンテーションのベンチマークで報告された性能差は、モデル品質ではなく、アノテーションの粒度ミスマッチとスパース境界ラベルによるものであることを示す。
これは、境界検出の改善よりも、評価成果物から多くの改善が報告されていることを示している。
タスク指向,オープンドメイン,ミーティングスタイル,合成インタラクションにまたがる8つの対話データセットに対して,複数の,構造的に異なる対話セグメンテーション戦略を評価した。
これらのセグメンテーションにおいて, 高セグメントのコヒーレンスと, スパースラベルに対する極度に過度な重み付けを併用し, 誤りを招きやすい精度のF1スコアを生成する。
トピックセグメンテーションは、単一の正しい境界セットを予測するのではなく、適切な粒度を選択することが最もよく理解されていることを示す。
我々は、境界選択から境界スコアを明確に分離することで、この視点を運用する。
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - Improving Multi-Party Dialogue Discourse Parsing via Domain Integration [25.805553277418813]
マルチパーティ会話は、対話的なターン間のセマンティックレベルの相関によって暗黙的に組織される。
対話談話分析は,基本談話単位間の係り受け構造と関係の予測に応用できる。
対話談話アノテーションを持つ既存のコーパスは、限られたサンプルサイズを持つ特定のドメインから収集される。
論文 参考訳(メタデータ) (2021-10-09T09:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。