Fugu-MT 論文翻訳(概要): Language Model Evaluation in Open-ended Text Generation

論文の概要: Language Model Evaluation in Open-ended Text Generation

arxiv url: http://arxiv.org/abs/2108.03578v1
Date: Sun, 8 Aug 2021 06:16:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 07:22:08.498482
Title: Language Model Evaluation in Open-ended Text Generation
Title（参考訳）: オープンエンドテキスト生成における言語モデルの評価
Authors: An Nguyen
Abstract要約: 本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
参考スコア（独自算出の注目度）: 0.76146285961466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although current state-of-the-art language models have achieved impressive results in numerous natural language processing tasks, still they could not solve the problem of producing repetitive, dull and sometimes inconsistent text in open-ended text generation. Studies often attribute this problem to the maximum likelihood training objective, and propose alternative approaches by using stochastic decoding methods or altering the training objective. However, there is still a lack of consistent evaluation metrics to directly compare the efficacy of these solutions. In this work, we study different evaluation metrics that have been proposed to evaluate quality, diversity and consistency of machine-generated text. From there, we propose a practical pipeline to evaluate language models in open-ended generation task, and research on how to improve the model's performance in all dimensions by leveraging different auxiliary training objectives.
Abstract（参考訳）: 現在の最先端の言語モデルは、多くの自然言語処理タスクにおいて印象的な成果を上げているが、オープンエンドテキスト生成において繰り返し、鈍く、時には矛盾するテキストを生成するという問題を解決できなかった。研究はしばしばこの問題を最大限の訓練目標とみなし、確率的復号法や訓練目標の変更による代替手法を提案する。しかし、これらのソリューションの有効性を直接比較する一貫した評価指標がまだ存在しない。本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている異なる評価指標について検討する。そこで我々は,オープンエンド生成タスクにおける言語モデル評価のための実践的パイプラインを提案し,様々な補助訓練の目的を活用して,各次元におけるモデルの性能向上に関する研究を行った。

関連論文リスト

Waste Not, Want Not; Recycled Gumbel Noise Improves Consistency in Natural Language Generation [0.5461938536945723]
本稿では,異なるプロンプト間の応答整合性を向上させる新しい復号アルゴリズムを提案する。本手法は, セマンティックおよびスタイリスティックな整合性ベンチマークにおいて, 標準サンプリングを最大10%向上させる。
論文参考訳（メタデータ） (2025-03-02T10:08:51Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。復号法は、いくつかの指標で優れ、他の指標では性能が劣ることが多い。本稿では,この多基準フレームワークにおける新たなランキング戦略を提案する。
論文参考訳（メタデータ） (2024-10-24T11:32:01Z)
Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文参考訳（メタデータ） (2024-05-30T17:38:44Z)
Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文参考訳（メタデータ） (2024-05-23T16:50:49Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。結果は、メソッド間でのパフォーマンスにかなりの違いが示される。この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文参考訳（メタデータ） (2023-11-21T06:23:38Z)
Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文参考訳（メタデータ） (2023-10-02T09:35:27Z)
A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文参考訳（メタデータ） (2022-02-13T21:46:14Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。