論文の概要: Automatic Discourse Segmentation: an evaluation in French
- arxiv url: http://arxiv.org/abs/2002.04095v2
- Date: Thu, 11 Jun 2020 20:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:47:46.557652
- Title: Automatic Discourse Segmentation: an evaluation in French
- Title(参考訳): 自動談話セグメンテーション:フランス語における評価
- Authors: R\'emy Saksik, Alejandro Molina-Villegas, Andr\'ea Carneiro Linhares,
Juan-Manuel Torres-Moreno
- Abstract要約: 本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
- 参考スコア(独自算出の注目度): 65.00134288222509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we describe some discursive segmentation methods as well as
a preliminary evaluation of the segmentation quality. Although our experiment
were carried for documents in French, we have developed three discursive
segmentation models solely based on resources simultaneously available in
several languages: marker lists and a statistic POS labeling. We have also
carried out automatic evaluations of these systems against the Annodis corpus,
which is a manually annotated reference. The results obtained are very
encouraging.
- Abstract(参考訳): 本稿では,いくつかの非帰的セグメンテーション手法と,そのセグメンテーション品質の予備評価について述べる。
本実験はフランス語の文書に対して行われたが,複数の言語で同時に利用可能なリソースに基づく3つの非帰的セグメンテーションモデル(マーカリストと統計POSラベリング)を開発した。
また,手作業による注釈付き参照である Annodis corpus に対して,これらのシステムの自動評価を行った。
得られた結果は大いに励まされる。
関連論文リスト
- SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - Using Natural Language Explanations to Rescale Human Judgments [89.21530406247142]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Evaluating the Efficacy of Summarization Evaluation across Languages [33.46519116869276]
我々は8つの異なる言語に対する要約コーパスを取り、フォーカス(精度)とカバレッジ(リコール)のために手動で生成された要約を注釈付けする。
BERTScoreにおける多言語BERTの使用は、英語よりも高いレベルにおいて、すべての言語でうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-06-02T21:28:01Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。