Fugu-MT 論文翻訳(概要): Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores

論文の概要: Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores

arxiv url: http://arxiv.org/abs/2403.00553v1
Date: Fri, 1 Mar 2024 14:23:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 17:03:53.280751
Title: Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores
Title（参考訳）: テキスト多様性の測定の標準化 : ツールとスコアの比較分析
Authors: Chantal Shaib, Joe Barrow, Jiuding Sun, Alexa F. Siu, Byron C. Wallace, Ani Nenkova
Abstract要約: 圧縮アルゴリズムは,n$-gramのオーバーラップスコアの計算を遅くすることで,測定値に類似した情報を取得する。スコアの適用性は、生成モデルの解析を超えて拡張される。
参考スコア（独自算出の注目度）: 30.12630686473324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The diversity across outputs generated by large language models shapes the perception of their quality and utility. Prompt leaks, templated answer structure, and canned responses across different interactions are readily noticed by people, but there is no standard score to measure this aspect of model behavior. In this work we empirically investigate diversity scores on English texts. We find that computationally efficient compression algorithms capture information similar to what is measured by slow to compute $n$-gram overlap homogeneity scores. Further, a combination of measures -- compression ratios, self-repetition of long $n$-grams and Self-BLEU and BERTScore -- are sufficient to report, as they have low mutual correlation with each other. The applicability of scores extends beyond analysis of generative models; for example, we highlight applications on instruction-tuning datasets and human-produced texts. We release a diversity score package to facilitate research and invite consistency across reports.
Abstract（参考訳）: 大きな言語モデルによって生成される出力の多様性は、その品質と実用性に対する認識を形作る。プロンプトリーク、テンプレート化された回答構造、さまざまなインタラクションにまたがる缶詰の応答は、人々が容易に気付くが、モデルの振る舞いのこの側面を測定する標準的なスコアはない。本研究は,英文の多様性スコアを実証的に調査する。計算効率のよい圧縮アルゴリズムは,n$-gramの重なり合わさったスコアの計算を遅くすることで,測定値に類似した情報を取得する。さらに、圧縮比率、長いn$-gramの自己反復、セルフブルーとbertscoreの組み合わせは、互いに相関関係が低いため、報告するのに十分である。スコアの適用性は生成モデルの分析に留まらず、例えば命令チューニングデータセットや人間が生成したテキストの応用を強調する。調査を容易にし、レポート間の一貫性を招待するための多様性スコアパッケージをリリースする。

関連論文リスト

The Medium Is Not the Message: Deconfounding Text Embeddings via Linear Concept Erasure [91.01653854955286]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文参考訳（メタデータ） (2025-07-01T23:17:12Z)
Entropy and type-token ratio in gigaword corpora [0.0]
語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。英語,スペイン語,トルコ語の6つの大規模言語データセットにおける多様性指標について検討した。与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにした。
論文参考訳（メタデータ） (2024-11-15T14:40:59Z)
Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文参考訳（メタデータ） (2024-09-23T15:02:38Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Looking at words and points with attention: a benchmark for text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文参考訳（メタデータ） (2023-09-14T17:59:48Z)
Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文参考訳（メタデータ） (2023-08-23T14:18:44Z)
Short Answer Grading Using One-shot Prompting and Text Similarity Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文参考訳（メタデータ） (2023-05-29T22:05:29Z)
Enriching language models with graph-based context information to better understand textual data [0.15469452301122172]
BERTモデルへのグラフベースの文脈化が,分類タスクの例において,その性能を向上させることを実験的に実証した。具体的には、Pubmedデータセット上で、エラーを8.51%から7.96%に削減し、パラメータの数を1.6%増加させた。
論文参考訳（メタデータ） (2023-05-10T10:57:21Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文参考訳（メタデータ） (2022-10-13T15:18:04Z)
How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文参考訳（メタデータ） (2022-09-14T09:42:19Z)
SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T17:58:05Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。 NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文参考訳（メタデータ） (2021-09-14T01:00:42Z)
Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文参考訳（メタデータ） (2020-10-05T17:27:31Z)
MultiGBS: A multi-layer graph approach to biomedical summarization [6.11737116137921]
本稿では,文書を多層グラフとしてモデル化し,テキストの複数の特徴を同時に処理可能にするドメイン固有手法を提案する。教師なしの手法では,MultiRankアルゴリズムと概念数に基づいて,多層グラフから文を選択する。提案するMultiGBSアルゴリズムはUMLSを採用し,SemRepやMetaMap,OGERといったさまざまなツールを用いて概念と関係を抽出する。
論文参考訳（メタデータ） (2020-08-27T04:22:37Z)
Extending Text Informativeness Measures to Passage Interestingness Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。 CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文参考訳（メタデータ） (2020-04-14T18:22:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。