Fugu-MT 論文翻訳(概要): Small but Mighty: New Benchmarks for Split and Rephrase

論文の概要: Small but Mighty: New Benchmarks for Split and Rephrase

arxiv url: http://arxiv.org/abs/2009.08560v2
Date: Sat, 12 Dec 2020 15:35:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 11:41:57.946909
Title: Small but Mighty: New Benchmarks for Split and Rephrase
Title（参考訳）: 小さくて美しい: 分割とリフレーズのための新しいベンチマーク
Authors: Li Zhang, Huaiyu Zhu, Siddhartha Brahma, Yunyao Li
Abstract要約: Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
参考スコア（独自算出の注目度）: 18.959219419951083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Split and Rephrase is a text simplification task of rewriting a complex sentence into simpler ones. As a relatively new task, it is paramount to ensure the soundness of its evaluation benchmark and metric. We find that the widely used benchmark dataset universally contains easily exploitable syntactic cues caused by its automatic generation process. Taking advantage of such cues, we show that even a simple rule-based model can perform on par with the state-of-the-art model. To remedy such limitations, we collect and release two crowdsourced benchmark datasets. We not only make sure that they contain significantly more diverse syntax, but also carefully control for their quality according to a well-defined set of criteria. While no satisfactory automatic metric exists, we apply fine-grained manual evaluation based on these criteria using crowdsourcing, showing that our datasets better represent the task and are significantly more challenging for the models.
Abstract（参考訳）: Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。比較的新しいタスクとして、評価ベンチマークと測定基準の健全性を保証するのが最重要である。広く使われているベンチマークデータセットは、その自動生成プロセスによって生じる、簡単に活用可能な構文的手がかりを普遍的に含んでいる。このようなヒントを生かして,単純なルールベースモデルであっても,最先端モデルと同等の性能を発揮することを示す。このような制限に対処するために、クラウドソースのベンチマークデータセットを2つ収集し、リリースします。私たちは、それらがはるかに多様な構文を含むことを確認するだけでなく、明確に定義された基準に従って、その品質を注意深く制御します。十分な自動測定基準は存在しないが,これらの基準に基づいた詳細な手作業による評価をクラウドソーシングを用いて適用することにより,我々のデータセットがタスクをより良く表現し,モデルにとって極めて困難であることを示す。

関連論文リスト

Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification [13.381644813030725]
様々なサイズのモデルによって生成される単純化された文を特徴付けるテキスト単純化のための合成ベンチマークを提案する。評価の結果,評価基準はアノテータ間の高い一致を示し,予想される傾向を反映していることがわかった。第2に, LLM審査員(LLMs-as-a-jury)による自動評価は, テキスト簡易化評価において一貫した評価を得るのに十分であることを示す。
論文参考訳（メタデータ） (2025-04-13T01:36:47Z)
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models [24.481028155002523]
タスクごとに高品質なベンチマークを作成するためのフレームワークであるZero-shot Benchmarking (ZSB)を提案する。 ZSBはシンプルで柔軟性があり、データ生成のためのプロンプトの作成と評価のためのプロンプトのみを必要とする。実際のデータを収集する作業や言語には、費用がかかるか実用的でない。
論文参考訳（メタデータ） (2025-04-01T17:40:08Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文参考訳（メタデータ） (2024-09-30T12:36:25Z)
Evaluating Document Simplification: On the Importance of Separately Assessing Simplicity and Meaning Preservation [9.618393813409266]
本稿では,文書レベルの簡易化評価に焦点をあてる。我々は、意味の保存と単純化のために異なる指標を用いて既存のモデルを比較した。我々は、単純さのために参照なし計量変種を導入し、モデルは、単純化または意味保存のどちらにも偏っていることを示す。
論文参考訳（メタデータ） (2024-04-04T08:04:24Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文参考訳（メタデータ） (2022-12-20T08:04:36Z)
On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文参考訳（メタデータ） (2022-10-22T22:12:06Z)
Finding Dataset Shortcuts with Grammar Induction [85.47127659108637]
我々は,NLPデータセットのショートカットの特徴付けと発見に確率文法を用いることを提案する。具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。その結果得られた文法は、単純かつ高レベルの機能を含む、多くのデータセットで興味深いショートカット機能を示す。
論文参考訳（メタデータ） (2022-10-20T19:54:11Z)
SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T17:58:05Z)
Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。 Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文参考訳（メタデータ） (2021-10-11T08:15:31Z)
Few-Shot Upsampling for Protest Size Detection [0.0]
粗い文書ラベルをきめ細かなラベルやスパンにアップサンプリングすることは、社会科学研究において一般的な問題である。ベンチマークデータセットと、社会的に影響のあるタスクのベースラインを提供します。我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルより優れていた。
論文参考訳（メタデータ） (2021-05-24T13:27:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。