論文の概要: MaskEval: Weighted MLM-Based Evaluation for Text Summarization and
Simplification
- arxiv url: http://arxiv.org/abs/2205.12394v1
- Date: Tue, 24 May 2022 22:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:59:01.467366
- Title: MaskEval: Weighted MLM-Based Evaluation for Text Summarization and
Simplification
- Title(参考訳): MaskEval:テキスト要約と簡易化のための軽量MLMによる評価
- Authors: Yu Lu Liu, Rachel Bawden, Thomas Scaliom, Beno\^it Sagot, Jackie Chi
Kit Cheung
- Abstract要約: MaskEvalは、テキストの要約と単純化のための参照なしメトリックである。
候補とソーステキストの連結に基づいて、MLM(Masked Language Modeling)を実行する。
各ステップの相対的な重要性を調節する、注意のような重み付け機構を備えている。
- 参考スコア(独自算出の注目度): 20.001563227357778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text summarization and simplification, system outputs must be evaluated
along multiple dimensions such as relevance, factual consistency, fluency, and
grammaticality, and a wide range of possible outputs could be of high quality.
These properties make the development of an adaptable, reference-less
evaluation metric both necessary and challenging. We introduce MaskEval, a
reference-less metric for text summarization and simplification that operates
by performing masked language modeling (MLM) on the concatenation of the
candidate and the source texts. It features an attention-like weighting
mechanism to modulate the relative importance of each MLM step, which crucially
allows MaskEval to be adapted to evaluate different quality dimensions. We
demonstrate its effectiveness on English summarization and on multilingual text
simplification in terms of correlations with human judgments.
- Abstract(参考訳): テキストの要約と単純化では、システムの出力は関連性、事実の一貫性、流束性、文法性といった多次元に沿って評価されなければならず、より広い範囲の出力は高品質でなければならない。
これらの特性により、適応可能で参照レスな評価指標の開発は必要かつ困難になる。
本稿では,テキスト要約と単純化のための参照レスメトリックであるMaskEvalを紹介し,候補テキストとソーステキストの連結に対してマスキング言語モデリング(MLM)を実行する。
それぞれのMLMステップの相対的重要性を調節するアテンションのような重み付け機構を備えており、MaskEvalを異なる品質次元に適応させることができる。
人間の判断との相関から,英語の要約と多言語テキストの単純化にその効果を示す。
関連論文リスト
- Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - What's Wrong? Refining Meeting Summaries with LLM Feedback [6.532478490187084]
本稿では,人間レビュープロセスを模倣した2段階プロセスを用いて,会議要約のためのマルチLLM補正手法を提案する。
QMSum Mistakeは、人によって注釈付けされた会議要約を9種類のエラータイプで自動生成する200のデータセットである。
特定ミスを実用的なフィードバックに変換することで,関連性,情報性,簡潔性,一貫性によって測定された要約の質を向上させる。
論文 参考訳(メタデータ) (2024-07-16T17:10:16Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Controllable Multi-document Summarization: Coverage & Coherence
Intuitive Policy with Large Language Model Based Rewards [42.171703872560286]
可制御性(英: controllability)とは、複数文書の要約などの長い入力を持つテキスト生成タスクにおいて問題となる問題である。
LLMによって洗練されるテキストを抽出するために、制御可能なコンテンツ抽出スキームを訓練する。
提案手法は,ROUGE測定値を用いた評価において競争結果が得られ,コヒーレンスにおける潜在的なベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-05T11:29:09Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Measuring Reliability of Large Language Models through Semantic
Consistency [3.4990427823966828]
我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。
我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
論文 参考訳(メタデータ) (2022-11-10T20:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。