論文の概要: A Two-Sample Test of Text Generation Similarity
- arxiv url: http://arxiv.org/abs/2505.05269v1
- Date: Thu, 08 May 2025 14:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.911337
- Title: A Two-Sample Test of Text Generation Similarity
- Title(参考訳): テキスト生成類似性の2サンプルテスト
- Authors: Jingbin Xu, Chen Qian, Meimei Liu, Feng Guo,
- Abstract要約: 本稿では,2つの文書群間の類似性を比較するための2サンプルテキストテストを提案する。
提案試験は,文書のエントロピーを比較することで,テキストの類似性を評価することを目的としている。
様々なシミュレーション研究と実データ例により、提案した2サンプルのテキストテストは、名目上のType 1エラー率を維持することを示した。
- 参考スコア(独自算出の注目度): 11.686503374742495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge in digitized text data requires reliable inferential methods on observed textual patterns. This article proposes a novel two-sample text test for comparing similarity between two groups of documents. The hypothesis is whether the probabilistic mapping generating the textual data is identical across two groups of documents. The proposed test aims to assess text similarity by comparing the entropy of the documents. Entropy is estimated using neural network-based language models. The test statistic is derived from an estimation-and-inference framework, where the entropy is first approximated using an estimation set, followed by inference on the remaining data set. We showed theoretically that under mild conditions, the test statistic asymptotically follows a normal distribution. A multiple data-splitting strategy is proposed to enhance test power, which combines p-values into a unified decision. Various simulation studies and a real data example demonstrated that the proposed two-sample text test maintains the nominal Type one error rate while offering greater power compared to existing methods. The proposed method provides a novel solution to assert differences in document classes, particularly in fields where large-scale textual information is crucial.
- Abstract(参考訳): デジタル化されたテキストデータの急増は、観測されたテキストパターンに対する信頼性の高い推論方法を必要とする。
本稿では,2つの文書群間の類似性を比較するための2サンプルテキストテストを提案する。
この仮説は、テキストデータを生成する確率的マッピングが2つの文書群で同一であるかどうかである。
提案試験は,文書のエントロピーを比較することで,テキストの類似性を評価することを目的としている。
エントロピーはニューラルネットワークに基づく言語モデルを用いて推定される。
テスト統計は、まずエントロピーを推定セットで近似し、次に残りのデータセットで推測する推定と推論のフレームワークから導かれる。
理論的には、温和な条件下では、試験統計学は漸近的に正規分布に従うことを示した。
p値を統一的な決定に組み合わせたテストパワーを高めるために、複数のデータ分割戦略が提案されている。
様々なシミュレーション研究と実データ例により、提案した2サンプルのテキストテストが、既存の手法と比較して大きなパワーを提供しながら、名目上のType 1エラー率を維持していることが示された。
提案手法は,特に大規模テキスト情報が重要となる分野において,文書クラスの違いを主張する新しい手法を提供する。
関連論文リスト
- Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Testing High-dimensional Multinomials with Applications to Text Analysis [9.952321247299336]
テスト統計学は、nullの下で標準正規分布を持つことが示されている。
提案した実験は, パラメータ空間全体にわたって, この最適検出境界を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-03T22:29:44Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。