論文の概要: DMAP: A Distribution Map for Text
- arxiv url: http://arxiv.org/abs/2602.11871v1
- Date: Thu, 12 Feb 2026 12:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.801946
- Title: DMAP: A Distribution Map for Text
- Title(参考訳): DMAP: テキストの配信マップ
- Authors: Tom Kempton, Julia Rozanova, Parameswaran Kamalaruban, Maeve Madigan, Karolina Wresilo, Yoann L. Launay, David Sutton, Stuart Burrell,
- Abstract要約: そこで本稿では,テキストを言語モデルを用いて,ランクと確率情報を結合的にエンコードする単位区間のサンプル集合にマッピングする手法DMAPを提案する。
この表現は効率的なモデルに依存しない分析を可能にし、様々なアプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 5.2660301576695545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are a powerful tool for statistical text analysis, with derived sequences of next-token probability distributions offering a wealth of information. Extracting this signal typically relies on metrics such as perplexity, which do not adequately account for context; how one should interpret a given next-token probability is dependent on the number of reasonable choices encoded by the shape of the conditional distribution. In this work, we present DMAP, a mathematically grounded method that maps a text, via a language model, to a set of samples in the unit interval that jointly encode rank and probability information. This representation enables efficient, model-agnostic analysis and supports a range of applications. We illustrate its utility through three case studies: (i) validation of generation parameters to ensure data integrity, (ii) examining the role of probability curvature in machine-generated text detection, and (iii) a forensic analysis revealing statistical fingerprints left in downstream models that have been subject to post-training on synthetic data. Our results demonstrate that DMAP offers a unified statistical view of text that is simple to compute on consumer hardware, widely applicable, and provides a foundation for further research into text analysis with LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は統計テキスト解析の強力なツールであり、豊富な情報を提供する次の確率分布の導出シーケンスを持つ。
この信号の抽出は典型的には、コンテクストを適切に考慮しないパープレキシティ(perplexity)のようなメトリクスに依存する; 与えられた次の確率を解釈する方法は、条件分布の形状によって符号化される合理的な選択の数に依存する。
そこで本研究では,言語モデルを用いてテキストを,ランクと確率情報を結合的にエンコードする単位区間のサンプル集合にマッピングする,数学的に基礎付けられたDMAPを提案する。
この表現は効率的なモデルに依存しない分析を可能にし、様々なアプリケーションをサポートする。
3つのケーススタディを通して、その有用性を説明します。
一 データの整合性を確保するための生成パラメータの検証
二 機械によるテキスト検出における確率曲率の役割の検討、及び
三 下流モデルに残されている統計指紋を、合成データによる後学習の対象とする法医学的分析。
以上の結果から,DMAPはコンシューマハードウェア上での計算が簡単で,LLMによるテキスト解析のさらなる研究の基盤となる,統一的なテキストの統計的ビューを提供することを示す。
関連論文リスト
- AdaDetectGPT: Adaptive Detection of LLM-Generated Text with Statistical Guarantees [12.122798309971316]
テキストが人間によって作成されているか,あるいは大言語モデル(LLM)によって作成されているかを決定する問題について検討する。
既存のアートロジットに基づく検出器は、所定のソースLLMの分布関数を用いて評価された観測テキストの対数確率から得られた統計値を利用する。
AdaDetectGPTは、ロジットベースの検出器の性能を高めるために、トレーニングデータから証人関数を適応的に学習する新しい分類器である。
論文 参考訳(メタデータ) (2025-09-29T10:04:35Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - A Two-Sample Test of Text Generation Similarity [11.686503374742495]
本稿では,2つの文書群間の類似性を比較するための2サンプルテキストテストを提案する。
提案試験は,文書のエントロピーを比較することで,テキストの類似性を評価することを目的としている。
様々なシミュレーション研究と実データ例により、提案した2サンプルのテキストテストは、名目上のType 1エラー率を維持することを示した。
論文 参考訳(メタデータ) (2025-05-08T14:15:53Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Estimation of embedding vectors in high dimensions [9.660058937140734]
我々は、いくつかの「真」だが未知の埋め込みが存在する離散データに対する単純な確率モデルを考える。
このモデルでは、埋め込みは低ランク近似メッセージパッシング(AMP)法の変種によって学習できることが示されている。
提案手法は, 合成データと実テキストデータの両方のシミュレーションにより検証した。
論文 参考訳(メタデータ) (2023-12-12T23:41:59Z) - LIPEx-Locally Interpretable Probabilistic Explanations-To Look Beyond
The True Class [17.12486200215929]
LIPExは摂動に基づく多クラス説明フレームワークである。
重要と思われるすべての機能が、可能なクラス毎に予測確率にどのように影響するかについて、洞察を提供する。
論文 参考訳(メタデータ) (2023-10-07T15:31:38Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。