論文の概要: Pointwise Paraphrase Appraisal is Potentially Problematic
- arxiv url: http://arxiv.org/abs/2005.11996v2
- Date: Fri, 5 Jun 2020 03:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:57:43.054661
- Title: Pointwise Paraphrase Appraisal is Potentially Problematic
- Title(参考訳): ポイントワイズパラフレーズ評価は潜在的に問題である
- Authors: Hannah Chen, Yangfeng Ji, David Evans
- Abstract要約: 本研究では,2つの文を1つのシーケンスでペア化することにより,文のパラフレーズ識別のための細調整BERTの標準的な手法が,最先端性能のモデルとなることを示す。
また、これらのモデルでは、一対の同一文よりも高いパラフレーズスコアを持つランダム選択文を予測できることを示した。
- 参考スコア(独自算出の注目度): 21.06607915149245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing approach for training and evaluating paraphrase identification
models is constructed as a binary classification problem: the model is given a
pair of sentences, and is judged by how accurately it classifies pairs as
either paraphrases or non-paraphrases. This pointwise-based evaluation method
does not match well the objective of most real world applications, so the goal
of our work is to understand how models which perform well under pointwise
evaluation may fail in practice and find better methods for evaluating
paraphrase identification models. As a first step towards that goal, we show
that although the standard way of fine-tuning BERT for paraphrase
identification by pairing two sentences as one sequence results in a model with
state-of-the-art performance, that model may perform poorly on simple tasks
like identifying pairs with two identical sentences. Moreover, we show that
these models may even predict a pair of randomly-selected sentences with higher
paraphrase score than a pair of identical ones.
- Abstract(参考訳): パラフレーズ識別モデルの訓練と評価のための一般的なアプローチは、二項分類問題として構築され、そのモデルには一対の文が与えられ、ペアをパラフレーズまたは非パラフレーズとして正確に分類する。
このポイントワイズに基づく評価手法は,実世界のほとんどのアプリケーションの目的に合致しないため,本研究の目的は,ポイントワイズ評価でうまく機能するモデルが実際どのように失敗するかを理解し,パラファーゼ識別モデルを評価するより良い方法を見出すことである。
この目標に向けた第一歩として、2つの文を1つのシーケンスとしてペア化することでパラフレーズの識別を微調整する標準的な方法が、そのモデルが2つの同じ文とペアを識別するといった単純なタスクでは不十分であることを示す。
さらに,これらのモデルでは,一対の同一文よりも高いパラフレーズスコアを持つランダム選択文を予測できることを示した。
関連論文リスト
- Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models [5.980822697955566]
Paraphrasusはパラフレーズ検出モデルの多次元評価のために設計されたベンチマークである。
詳細な評価レンズ下でのパラフレーズ検出モデルは,単一分類データセットでは取得できないトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-18T15:33:48Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Assessing Word Importance Using Models Trained for Semantic Tasks [0.0]
我々は、自然言語推論とパラフレーズ同定という、意味的課題を解決するために訓練されたモデルから単語の意義を導き出す。
我々は、いわゆるクロスタスク評価を用いて、それらの妥当性を評価する。
本手法は, 文章中の重要な単語を, 学習における単語のラベル付けを伴わずに識別することができる。
論文 参考訳(メタデータ) (2023-05-31T09:34:26Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement
Learning [30.09715149060206]
キーフレーズ生成(KG)は、ある文書から中心的なアイデアを取得するための古典的なタスクである。
本稿では,異なる粒度を考慮した新しい粒度評価指標を提案する。
より不規則な言語パターンを学習するために、予測キーフレーズとターゲットキーフレーズの連続的な類似度スコアを計算するために、事前訓練されたモデル(例えばBERT)を用いる。
論文 参考訳(メタデータ) (2021-04-18T10:13:46Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。