論文の概要: DMAP: A Distribution Map for Text
- arxiv url: http://arxiv.org/abs/2602.11871v1
- Date: Thu, 12 Feb 2026 12:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.801946
- Title: DMAP: A Distribution Map for Text
- Title(参考訳): DMAP: テキストの配信マップ
- Authors: Tom Kempton, Julia Rozanova, Parameswaran Kamalaruban, Maeve Madigan, Karolina Wresilo, Yoann L. Launay, David Sutton, Stuart Burrell,
- Abstract要約: そこで本稿では,テキストを言語モデルを用いて,ランクと確率情報を結合的にエンコードする単位区間のサンプル集合にマッピングする手法DMAPを提案する。
この表現は効率的なモデルに依存しない分析を可能にし、様々なアプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 5.2660301576695545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are a powerful tool for statistical text analysis, with derived sequences of next-token probability distributions offering a wealth of information. Extracting this signal typically relies on metrics such as perplexity, which do not adequately account for context; how one should interpret a given next-token probability is dependent on the number of reasonable choices encoded by the shape of the conditional distribution. In this work, we present DMAP, a mathematically grounded method that maps a text, via a language model, to a set of samples in the unit interval that jointly encode rank and probability information. This representation enables efficient, model-agnostic analysis and supports a range of applications. We illustrate its utility through three case studies: (i) validation of generation parameters to ensure data integrity, (ii) examining the role of probability curvature in machine-generated text detection, and (iii) a forensic analysis revealing statistical fingerprints left in downstream models that have been subject to post-training on synthetic data. Our results demonstrate that DMAP offers a unified statistical view of text that is simple to compute on consumer hardware, widely applicable, and provides a foundation for further research into text analysis with LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は統計テキスト解析の強力なツールであり、豊富な情報を提供する次の確率分布の導出シーケンスを持つ。
この信号の抽出は典型的には、コンテクストを適切に考慮しないパープレキシティ(perplexity)のようなメトリクスに依存する; 与えられた次の確率を解釈する方法は、条件分布の形状によって符号化される合理的な選択の数に依存する。
そこで本研究では,言語モデルを用いてテキストを,ランクと確率情報を結合的にエンコードする単位区間のサンプル集合にマッピングする,数学的に基礎付けられたDMAPを提案する。
この表現は効率的なモデルに依存しない分析を可能にし、様々なアプリケーションをサポートする。
3つのケーススタディを通して、その有用性を説明します。
一 データの整合性を確保するための生成パラメータの検証
二 機械によるテキスト検出における確率曲率の役割の検討、及び
三 下流モデルに残されている統計指紋を、合成データによる後学習の対象とする法医学的分析。
以上の結果から,DMAPはコンシューマハードウェア上での計算が簡単で,LLMによるテキスト解析のさらなる研究の基盤となる,統一的なテキストの統計的ビューを提供することを示す。
関連論文リスト
- A Two-Sample Test of Text Generation Similarity [11.686503374742495]
本稿では,2つの文書群間の類似性を比較するための2サンプルテキストテストを提案する。
提案試験は,文書のエントロピーを比較することで,テキストの類似性を評価することを目的としている。
様々なシミュレーション研究と実データ例により、提案した2サンプルのテキストテストは、名目上のType 1エラー率を維持することを示した。
論文 参考訳(メタデータ) (2025-05-08T14:15:53Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Estimation of embedding vectors in high dimensions [9.660058937140734]
我々は、いくつかの「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。
このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。
提案手法は, 合成データと実テキストデータの両方のシミュレーションにより検証した。
論文 参考訳(メタデータ) (2023-12-12T23:41:59Z) - LIPEx-Locally Interpretable Probabilistic Explanations-To Look Beyond
The True Class [17.12486200215929]
LIPExは摂動に基づく多クラス説明フレームワークである。
重要と思われるすべての機能が、可能なクラス毎に予測確率にどのように影響するかについて、洞察を提供する。
論文 参考訳(メタデータ) (2023-10-07T15:31:38Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。