論文の概要: CoTK: An Open-Source Toolkit for Fast Development and Fair Evaluation of
Text Generation
- arxiv url: http://arxiv.org/abs/2002.00583v1
- Date: Mon, 3 Feb 2020 07:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:10:54.176923
- Title: CoTK: An Open-Source Toolkit for Fast Development and Fair Evaluation of
Text Generation
- Title(参考訳): CoTK: テキスト生成の高速化と公正な評価のためのオープンソースツールキット
- Authors: Fei Huang, Dazhen Wan, Zhihong Shao, Pei Ke, Jian Guan, Yilin Niu,
Xiaoyan Zhu, Minlie Huang
- Abstract要約: モデル開発において、CoTKはデータ処理、メートル法の実装、再生といった面倒な問題を扱うのに役立ちます。
モデル評価において、CoTKは様々な実験環境にまたがる多くの一般的なメトリクスとベンチマークモデルの実装を提供する。
- 参考スコア(独自算出の注目度): 91.58324412629477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text generation evaluation, many practical issues, such as inconsistent
experimental settings and metric implementations, are often ignored but lead to
unfair evaluation and untenable conclusions. We present CoTK, an open-source
toolkit aiming to support fast development and fair evaluation of text
generation. In model development, CoTK helps handle the cumbersome issues, such
as data processing, metric implementation, and reproduction. It standardizes
the development steps and reduces human errors which may lead to inconsistent
experimental settings. In model evaluation, CoTK provides implementation for
many commonly used metrics and benchmark models across different experimental
settings. As a unique feature, CoTK can signify when and which metric cannot be
fairly compared. We demonstrate that it is convenient to use CoTK for model
development and evaluation, particularly across different experimental
settings.
- Abstract(参考訳): テキスト生成評価では、一貫性のない実験的な設定やメートル法の実装など、多くの実用的な問題はしばしば無視されるが、不公平な評価と意図できない結論につながる。
本稿では,テキスト生成の高速開発と公平な評価を支援するオープンソースツールキットであるcotkを提案する。
モデル開発において、CoTKはデータ処理、メートル法の実装、再生といった面倒な問題を扱うのに役立ちます。
開発手順を標準化し、ヒューマンエラーを低減し、一貫性のない実験的な設定につながる可能性がある。
モデル評価において、CoTKは様々な実験環境にまたがる多くの一般的なメトリクスとベンチマークモデルの実装を提供する。
ユニークな特徴として、CoTKはいつ、どのメトリックを正確に比較できないかを示すことができる。
cotkをモデルの開発と評価、特に実験的な設定で使用するのが便利であることを示す。
関連論文リスト
- CEval: A Benchmark for Evaluating Counterfactual Text Generation [2.899704155417792]
本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
CEvalをオープンソースのPythonライブラリとして利用できるようにすることで、コミュニティはより多くのメソッドをコントリビュートすることを推奨しています。
論文 参考訳(メタデータ) (2024-04-26T15:23:47Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。
この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文 参考訳(メタデータ) (2022-10-24T08:15:28Z) - Out of the BLEU: how should we assess quality of the Code Generation
models? [3.699097874146491]
本稿では,コード生成モデルの評価に,BLEU,ROUGE-L,METEOR,ChrF,CodeBLEU,RUBYの6つのメトリクスの適用性について検討する。
いずれの指標も、モデルスコアの違いが5点未満であれば、95%の確証で、どのモデルが良いかという人間の判断を正しくエミュレートすることはできない。
以上の結果から,ChrF測定値が一般的なBLEUやCodeBLEUよりもコード生成モデルに適していることが示唆された。
論文 参考訳(メタデータ) (2022-08-05T13:00:16Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。