論文の概要: Learning to Substitute Words with Model-based Score Ranking
- arxiv url: http://arxiv.org/abs/2502.05933v2
- Date: Fri, 14 Feb 2025 23:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:31.680800
- Title: Learning to Substitute Words with Model-based Score Ranking
- Title(参考訳): モデルに基づくスコアランキングを用いた単語置換学習
- Authors: Hongye Liu, Ricardo Henao,
- Abstract要約: スマートワード置換は、単語選択を改善することによって文質を向上させることを目的としている。
現在のベンチマークは、人間のラベル付きデータに依存している。
文質の定量化にはモデルベーススコア(BARTScore)を用いる。
- 参考スコア(独自算出の注目度): 17.46170699645023
- License:
- Abstract: Smart word substitution aims to enhance sentence quality by improving word choices; however current benchmarks rely on human-labeled data. Since word choices are inherently subjective, ground-truth word substitutions generated by a small group of annotators are often incomplete and likely not generalizable. To circumvent this issue, we instead employ a model-based score (BARTScore) to quantify sentence quality, thus forgoing the need for human annotations. Specifically, we use this score to define a distribution for each word substitution, allowing one to test whether a substitution is statistically superior relative to others. In addition, we propose a loss function that directly optimizes the alignment between model predictions and sentence scores, while also enhancing the overall quality score of a substitution. Crucially, model learning no longer requires human labels, thus avoiding the cost of annotation while maintaining the quality of the text modified with substitutions. Experimental results show that the proposed approach outperforms both masked language models (BERT, BART) and large language models (GPT-4, LLaMA). The source code is available at https://github.com/Hyfred/Substitute-Words-with-Ranking.
- Abstract(参考訳): スマートワード置換は、単語選択を改善することによって文質を向上させることを目的としているが、現在のベンチマークは人間のラベル付きデータに依存している。
単語の選択は本質的に主観的であるため、小さなアノテータのグループによって生成される接地的真理的な単語置換はしばしば不完全であり、一般化不可能である。
この問題を回避するために、我々は、文章の品質を定量化するためにモデルベースのスコア(BARTScore)を用いる。
具体的には、このスコアを用いて各単語置換の分布を定義し、置換が他の単語よりも統計的に優れているかどうかをテストする。
さらに、モデル予測と文スコアのアライメントを直接最適化し、置換の全体的な品質スコアを向上するロス関数を提案する。
重要なことは、モデル学習はもはや人間のラベルを必要としないため、代用で修正されたテキストの品質を維持しながらアノテーションのコストを回避できる。
実験の結果,提案手法はマスク付き言語モデル (BERT, BART) と大規模言語モデル (GPT-4, LLaMA) の両方より優れていた。
ソースコードはhttps://github.com/Hyfred/Substitute-Words-with-Ranking.comで公開されている。
関連論文リスト
- Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Swords: A Benchmark for Lexical Substitution with Improved Data Coverage
and Quality [126.55416118361495]
語彙置換のための新しいベンチマークを新たにリリースし、コンテキスト内でターゲット単語の適切な代用語を見つける。
我々は、文脈のないシソーラスを用いて候補を生成し、文脈的適切性を決定するために人間の判断に依存する。
これまでの最大のベンチマークと比較すると、我々のSwordsベンチマークは、同じ品質の単語に対して、ターゲットワード当たり4.1倍の代替品を持ち、その代替品は、同じ数の代用品に対して1.5倍(人間の判断に基づいて)適している。
論文 参考訳(メタデータ) (2021-06-08T04:58:29Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Rewriting Meaningful Sentences via Conditional BERT Sampling and an
application on fooling text classifiers [11.49508308643065]
テキスト分類器を欺くように設計された敵攻撃法は、いくつかの単語や文字を変更することで、テキスト分類器の予測を変更する。
文レベルの言い直しに固有の難しさや、正統な書き直し基準を設定することの難しさから、文全体を書き換えて分類子を攻撃しようとする者はほとんどいない。
本稿では,文レベルの書き換えによる逆例作成の問題について検討する。
我々は文レベルの脅威モデルと呼ばれる新しい修正基準を提案し、この基準は単語レベルの変更と文レベルの変更の両方を可能にし、意味的類似性と2つの次元で独立に調整できる。
論文 参考訳(メタデータ) (2020-10-22T17:03:13Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。