Fugu-MT 論文翻訳(概要): Improving Text Generation Evaluation with Batch Centering and Tempered Word Mover Distance

論文の概要: Improving Text Generation Evaluation with Batch Centering and Tempered Word Mover Distance

arxiv url: http://arxiv.org/abs/2010.06150v1
Date: Tue, 13 Oct 2020 03:46:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 22:44:39.882453
Title: Improving Text Generation Evaluation with Batch Centering and Tempered Word Mover Distance
Title（参考訳）: Batch Centering と Tempered Word Mover Distance によるテキスト生成評価の改善
Authors: Xi Chen, Nan Ding, Tomer Levinboim, Radu Soricut
Abstract要約: 類似度指標の符号化表現を改善するための2つの手法を提案する。さまざまなBERTバックボーンの学習指標について結果を示し、複数のベンチマークでヒトのレーティングとアート相関の状態を達成した。
参考スコア（独自算出の注目度）: 24.49032191669509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in automatic evaluation metrics for text have shown that deep contextualized word representations, such as those generated by BERT encoders, are helpful for designing metrics that correlate well with human judgements. At the same time, it has been argued that contextualized word representations exhibit sub-optimal statistical properties for encoding the true similarity between words or sentences. In this paper, we present two techniques for improving encoding representations for similarity metrics: a batch-mean centering strategy that improves statistical properties; and a computationally efficient tempered Word Mover Distance, for better fusion of the information in the contextualized word representations. We conduct numerical experiments that demonstrate the robustness of our techniques, reporting results over various BERT-backbone learned metrics and achieving state of the art correlation with human ratings on several benchmarks.
Abstract（参考訳）: 近年のテキストの自動評価指標の進歩により,BERTエンコーダなどの文脈的単語表現が人間の判断とよく相関する指標を設計するのに有用であることが示されている。同時に、文脈化された単語表現は、単語または文間の真の類似性をエンコードするための準最適統計特性を示すと論じられている。本稿では,類似度メトリクスの符号化表現を改善するための2つの手法について述べる。統計特性を改善するバッチ平均中心戦略と,文脈化単語表現における情報の融合を改善するための計算効率の良いテンパリングワードムーバー距離である。提案手法のロバスト性を実証する数値実験を行い,様々なBERTバックボーン学習指標に対する結果の報告と,複数のベンチマークによる人体評価との相関の達成について検討した。

関連論文リスト

FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-05T18:36:33Z)
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance [8.216807467478281]
テキストと画像の合成を評価することは、確立されたメトリクスと人間の嗜好の相違により困難である。視覚的忠実度とテキストプロンプトアライメントの両方を考慮に入れた指標であるcFreDを提案する。本研究は,テキスト・ツー・イメージ・モデルの体系的評価のための,堅牢で将来性の高い指標として,cFreDを検証した。
論文参考訳（メタデータ） (2025-03-27T17:35:14Z)
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文参考訳（メタデータ） (2024-10-14T08:45:35Z)
Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文参考訳（メタデータ） (2024-09-23T15:02:38Z)
Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文参考訳（メタデータ） (2024-02-15T18:23:39Z)
Constructing Vec-tionaries to Extract Message Features from Texts: A Case Study of Moral Appeals [5.336592570916432]
本稿では,単語埋め込みによる検証辞書を向上するベクタリー測度ツールの構築手法を提案する。 vec-tionaryは、テキストの強みを超えてメッセージ機能のあいまいさを捉えるために、追加のメトリクスを生成することができる。
論文参考訳（メタデータ） (2023-12-10T20:37:29Z)
Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文参考訳（メタデータ） (2023-10-02T09:35:27Z)
Quantitative Discourse Cohesion Analysis of Scientific Scholarly Texts using Multilayer Networks [10.556468838821338]
本研究の目的は,多層ネットワーク表現を用いた学術文献における談話の凝集度を計算学的に解析することである。テキストにおける語彙的凝集度を評価するために,セクションレベルおよび文書レベルのメトリクスを設計する。本稿では、著者に原稿の潜在的な改善のためのポインタを提供するための分析フレームワークCHIAA(CHeck It Again, Author)を提案する。
論文参考訳（メタデータ） (2022-05-16T09:10:41Z)
Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文参考訳（メタデータ） (2021-11-17T07:09:59Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)
COSMic: A Coherence-Aware Generation Metric for Image Descriptions [27.41088864449921]
画像メトリクスは、テキスト評価モデルのセマンティックおよび実用的成功の正確な学習された推定を与えるのに苦労してきた。出力の出力を評価するための最初の学習的生成指標を示す。提案手法では,BLEURTやBERTなどの他の指標と比較して,複数の最先端キャプションモデルの結果に対する人的判断の精度が高いことを示す。
論文参考訳（メタデータ） (2021-09-11T13:43:36Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)
Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文参考訳（メタデータ） (2020-02-10T03:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。