論文の概要: NUBIA: NeUral Based Interchangeability Assessor for Text Generation
- arxiv url: http://arxiv.org/abs/2004.14667v2
- Date: Fri, 1 May 2020 09:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:03:06.032222
- Title: NUBIA: NeUral Based Interchangeability Assessor for Text Generation
- Title(参考訳): NUBIA:テキスト生成のためのNeUralベースのインターチェンジビリティアセスメント
- Authors: Hassan Kane, Muhammed Yusuf Kocyigit, Ali Abdalla, Pelkins Ajanoh,
Mohamed Coulibali
- Abstract要約: NUBIAは、機械学習モデルのみをコアコンポーネントとして用い、テキスト生成のための自動評価指標を構築する手法である。
典型的なNUBIAモデルは、ニューラル特徴抽出器、アグリゲータ、キャリブレータの3つのモジュールで構成されている。
NUBIAの実装は、現在、機械翻訳、要約、そして人間の判断と相関する技術メトリクスの状態をわずかに上回り、評価するために使われている指標より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present NUBIA, a methodology to build automatic evaluation metrics for
text generation using only machine learning models as core components. A
typical NUBIA model is composed of three modules: a neural feature extractor,
an aggregator and a calibrator. We demonstrate an implementation of NUBIA which
outperforms metrics currently used to evaluate machine translation, summaries
and slightly exceeds/matches state of the art metrics on correlation with human
judgement on the WMT segment-level Direct Assessment task, sentence-level
ranking and image captioning evaluation. The model implemented is modular,
explainable and set to continuously improve over time.
- Abstract(参考訳): 機械学習モデルのみをコアコンポーネントとして使用する,テキスト生成のための自動評価メトリクス構築手法であるnubiaを提案する。
典型的なNUBIAモデルは、ニューラル特徴抽出器、アグリゲータ、キャリブレータの3つのモジュールで構成されている。
我々は,WMTセグメントレベルのダイレクトアセスメントタスク,文レベルのランク付け,画像キャプション評価において,人間の判断と相関して,機械翻訳,要約,技術メトリクスのわずかに上回り/一致状態を評価するために現在使用されている指標を上回り,NUBIAの実装を示す。
実装されたモデルはモジュール化され、説明可能で、時間とともに継続的に改善される。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Semantic-based Self-Critical Training For Question Generation [0.0]
ニューラル質問生成のための完全変換器を用いた強化学習ジェネレータアーキテクチャを提案する。
我々は、ジェネレータ評価アーキテクチャにおける意味に基づく自己クリティカルなトレーニングレイアウトを考案した。
論文 参考訳(メタデータ) (2021-08-26T20:33:35Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。