論文の概要: When F1 Fails: Granularity-Aware Evaluation for Dialogue Topic Segmentation
- arxiv url: http://arxiv.org/abs/2512.17083v2
- Date: Wed, 24 Dec 2025 18:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.930733
- Title: When F1 Fails: Granularity-Aware Evaluation for Dialogue Topic Segmentation
- Title(参考訳): F1が失敗した場合:対話トピックセグメンテーションのための粒度認識評価
- Authors: Michael H. Coen,
- Abstract要約: 本稿では,ウィンドウ耐性F1(W-F1)とともに境界密度とセグメントアライメント診断(純度とカバレッジ)を報告する評価フレームワークを提案する。
境界選択から境界スコアを分離することにより, 1つの操作点ではなく, 密度レジーム間のセグメンテーション品質を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogue topic segmentation supports summarization, retrieval, memory management, and conversational continuity. Despite decades of work, evaluation practice remains dominated by strict boundary matching and F1-based metrics. Modern large language model (LLM) based conversational systems increasingly rely on segmentation to manage conversation history beyond fixed context windows. In such systems, unstructured context accumulation degrades efficiency and coherence. This paper introduces an evaluation framework that reports boundary density and segment alignment diagnostics (purity and coverage) alongside window-tolerant F1 (W-F1). By separating boundary scoring from boundary selection, we evaluate segmentation quality across density regimes rather than at a single operating point. Cross-dataset evaluation shows that reported performance differences often reflect annotation granularity mismatch rather than boundary placement quality alone. We evaluate structurally distinct segmentation strategies across eight dialogue datasets spanning task-oriented, open-domain, meeting-style, and synthetic interactions. Boundary-based metrics are strongly coupled to boundary density: threshold sweeps produce larger W-F1 changes than switching between methods. These findings support viewing topic segmentation as a granularity selection problem rather than prediction of a single correct boundary set. This motivates separating boundary scoring from boundary selection for analyzing and tuning segmentation under varying annotation granularities.
- Abstract(参考訳): 対話トピックセグメンテーションは要約、検索、メモリ管理、会話継続をサポートする。
数十年にわたる作業にもかかわらず、評価の実践は厳密な境界マッチングとF1ベースのメトリクスによって支配されている。
現代の大規模言語モデル(LLM)ベースの会話システムは、固定されたコンテキストウィンドウを超えた会話履歴を管理するためにセグメント化に依存している。
このようなシステムでは、非構造化コンテキストの蓄積は効率とコヒーレンスを低下させる。
本稿では,ウィンドウ耐性F1(W-F1)とともに境界密度とセグメントアライメント診断(純度とカバレッジ)を報告する評価フレームワークを提案する。
境界選択から境界スコアを分離することにより, 1つの操作点ではなく, 密度レジーム間のセグメンテーション品質を評価する。
クロスデータセット評価では、報告された性能の違いは、境界配置品質のみではなく、アノテーションの粒度ミスマッチを反映することが多い。
タスク指向、オープンドメイン、ミーティングスタイル、合成インタラクションにまたがる8つの対話データセットに対して、構造的に異なるセグメンテーション戦略を評価する。
境界ベースのメトリクスは境界密度と強く結びついている。しきい値のスイープはメソッド間の切り替えよりも大きなW-F1変化をもたらす。
これらの知見は、単一の正しい境界セットの予測よりも、粒度選択問題としてのトピックセグメンテーションを支持する。
これは、様々なアノテーションの粒度の下でセグメンテーションを分析し調整するための境界選択から境界スコアを分離する動機付けである。
関連論文リスト
- Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。
我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。
この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文 参考訳(メタデータ) (2025-03-10T16:26:11Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - Improving Multi-Party Dialogue Discourse Parsing via Domain Integration [25.805553277418813]
マルチパーティ会話は、対話的なターン間のセマンティックレベルの相関によって暗黙的に組織される。
対話談話分析は,基本談話単位間の係り受け構造と関係の予測に応用できる。
対話談話アノテーションを持つ既存のコーパスは、限られたサンプルサイズを持つ特定のドメインから収集される。
論文 参考訳(メタデータ) (2021-10-09T09:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。