論文の概要: Improving Text Generation Evaluation with Batch Centering and Tempered
Word Mover Distance
- arxiv url: http://arxiv.org/abs/2010.06150v1
- Date: Tue, 13 Oct 2020 03:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:44:39.882453
- Title: Improving Text Generation Evaluation with Batch Centering and Tempered
Word Mover Distance
- Title(参考訳): Batch Centering と Tempered Word Mover Distance によるテキスト生成評価の改善
- Authors: Xi Chen, Nan Ding, Tomer Levinboim, Radu Soricut
- Abstract要約: 類似度指標の符号化表現を改善するための2つの手法を提案する。
さまざまなBERTバックボーンの学習指標について結果を示し、複数のベンチマークでヒトのレーティングとアート相関の状態を達成した。
- 参考スコア(独自算出の注目度): 24.49032191669509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in automatic evaluation metrics for text have shown that deep
contextualized word representations, such as those generated by BERT encoders,
are helpful for designing metrics that correlate well with human judgements. At
the same time, it has been argued that contextualized word representations
exhibit sub-optimal statistical properties for encoding the true similarity
between words or sentences. In this paper, we present two techniques for
improving encoding representations for similarity metrics: a batch-mean
centering strategy that improves statistical properties; and a computationally
efficient tempered Word Mover Distance, for better fusion of the information in
the contextualized word representations. We conduct numerical experiments that
demonstrate the robustness of our techniques, reporting results over various
BERT-backbone learned metrics and achieving state of the art correlation with
human ratings on several benchmarks.
- Abstract(参考訳): 近年のテキストの自動評価指標の進歩により,BERTエンコーダなどの文脈的単語表現が人間の判断とよく相関する指標を設計するのに有用であることが示されている。
同時に、文脈化された単語表現は、単語または文間の真の類似性をエンコードするための準最適統計特性を示すと論じられている。
本稿では,類似度メトリクスの符号化表現を改善するための2つの手法について述べる。統計特性を改善するバッチ平均中心戦略と,文脈化単語表現における情報の融合を改善するための計算効率の良いテンパリングワードムーバー距離である。
提案手法のロバスト性を実証する数値実験を行い,様々なBERTバックボーン学習指標に対する結果の報告と,複数のベンチマークによる人体評価との相関の達成について検討した。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Constructing Vec-tionaries to Extract Message Features from Texts: A
Case Study of Moral Appeals [5.336592570916432]
本稿では,単語埋め込みによる検証辞書を向上するベクタリー測度ツールの構築手法を提案する。
vec-tionaryは、テキストの強みを超えてメッセージ機能のあいまいさを捉えるために、追加のメトリクスを生成することができる。
論文 参考訳(メタデータ) (2023-12-10T20:37:29Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Quantitative Discourse Cohesion Analysis of Scientific Scholarly Texts
using Multilayer Networks [10.556468838821338]
本研究の目的は,多層ネットワーク表現を用いた学術文献における談話の凝集度を計算学的に解析することである。
テキストにおける語彙的凝集度を評価するために,セクションレベルおよび文書レベルのメトリクスを設計する。
本稿では、著者に原稿の潜在的な改善のためのポインタを提供するための分析フレームワークCHIAA(CHeck It Again, Author)を提案する。
論文 参考訳(メタデータ) (2022-05-16T09:10:41Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。
出力の出力を評価するための最初の学習的生成指標を示す。
提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文 参考訳(メタデータ) (2021-09-11T13:43:36Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。