論文の概要: Drift and selection in LLM text ecosystems
- arxiv url: http://arxiv.org/abs/2604.08554v1
- Date: Sun, 15 Mar 2026 08:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.400732
- Title: Drift and selection in LLM text ecosystems
- Title(参考訳): LLMテキストエコシステムにおけるドリフトと選択
- Authors: Søren Riis,
- Abstract要約: 公開のテキスト記録は、そのアウトプットによってますます形づくられている。
可変次$n$-gramのエージェントをベースとした,このプロセスのためのフレームワークを開発する。
出版物が公開テキストを圧縮し、選択的なフィルタリングがよりリッチな構造を維持するかどうかを識別する。
- 参考スコア(独自算出の注目度): 0.016201337438609787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The public text record -- the material from which both people and AI systems now learn -- is increasingly shaped by its own outputs. Generated text enters the public record, later agents learn from it, and the cycle repeats. Here we develop an exactly solvable mathematical framework for this recursive process, based on variable-order $n$-gram agents, and separate two forces acting on the public corpus. The first is drift: unfiltered reuse progressively removes rare forms, and in the infinite-corpus limit we characterise the stable distributions exactly. The second is selection: publication, ranking and verification filter what enters the record, and the outcome depends on what is selected. When publication merely reflects the statistical status quo, the corpus converges to a shallow state in which further lookahead brings no benefit. When publication is normative -- rewarding quality, correctness or novelty -- deeper structure persists, and we establish an optimal upper bound on the resulting divergence from shallow equilibria. The framework therefore identifies when recursive publication compresses public text and when selective filtering sustains richer structure, with implications for the design of AI training corpora.
- Abstract(参考訳): 人々とAIシステムが今学習している資料である公開テキスト記録は、ますます独自のアウトプットによって形づくられている。
生成されたテキストが公開記録に入り、その後エージェントがそこから学び、サイクルが繰り返される。
ここでは、変数次$n$-gramエージェントに基づいて、この再帰過程を正確に解ける数学的枠組みを開発し、公的なコーパスに作用する2つの力を分離する。
1つはドリフトである: フィルターなしの再利用は、徐々に稀な形式を除去し、無限小の極限では、安定分布を正確に特徴づける。
第2の選択肢は、公開、ランキング、検証のフィルターで、どのレコードに入るかが選択され、結果が選択されるかによって異なる。
出版物が単に統計的なステータスを反映しているだけである場合、コーパスは浅い状態に収束し、さらなるルックアヘッドが利益をもたらすことはない。
出版が規範的(品質、正当性、新奇性に報いる)である場合、より深い構造が続き、浅い均衡から得られる分岐に最適な上限を確立する。
したがって、このフレームワークは、再帰的な出版物が公開テキストを圧縮し、選択的なフィルタリングがよりリッチな構造を維持するときに、AIトレーニングコーパスの設計に影響を及ぼす。
関連論文リスト
- sciwrite-lint: Verification Infrastructure for the Age of Science Vibe-Writing [0.0]
現在、科学は品質保証に2つの選択肢を提供しているが、どちらも不十分である。
論文自体を測る第3の選択肢を提案する。
sciwrite-lintは、研究者のマシンで完全に動作する科学写本のためのオープンソースライブラリである。
arXivとbioRxivの未確認論文30件について, 誤り注入とLCM適応偽陽性解析を用いてパイプラインの評価を行った。
論文 参考訳(メタデータ) (2026-04-09T17:46:44Z) - CorpusStudio: Surfacing Emergent Patterns in a Corpus of Prior Work while Writing [30.18692324895119]
科学コミュニティを含む多くのコミュニティが暗黙の書記規範を発達させている。
この知識を外部化し、自分自身の著作に適用することは困難である。
テキストコーパスにおける文書と文レベルのパターンを整理する2つの新しい記述支援概念を提案する。
論文 参考訳(メタデータ) (2025-03-16T10:16:21Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - A Robust Autoencoder Ensemble-Based Approach for Anomaly Detection in Text [0.3314882635954752]
Textual Anomaly Contamination (TAC) は、独立性または文脈性のいずれかの異常なクラスを汚染することができる。
本稿では,ロバスト部分空間局所回復オートエンコーダであるRoSAEを提案する。
ベンチマークは、我々のアプローチが、より堅牢でありながら、独立性と文脈上の両方の異常に関する最近の研究より優れていることを示している。
論文 参考訳(メタデータ) (2024-05-16T10:45:43Z) - A Dense Reward View on Aligning Text-to-Image Diffusion with Preference [54.43177605637759]
本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
論文 参考訳(メタデータ) (2024-02-13T07:37:24Z) - A Zipf's Law-based Text Generation Approach for Addressing Imbalance in
Entity Extraction [19.55959053873699]
本稿では,その量的情報を通して問題を観察し,新たなアプローチを提案する。
実体がある種の共通性を示す一方で、他の実体が不足していることを認識しており、これは単語の量的分布に反映できる。
Zipfの法則は、よく適合した採用として現れ、単語から実体へ移行するために、文書内の単語は、一般的で稀なものとして分類される。
論文 参考訳(メタデータ) (2022-05-25T10:22:14Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - RuREBus: a Case Study of Joint Named Entity Recognition and Relation
Extraction from e-Government Domain [7.6462329126769815]
本稿では、国家機関が発行する文書からなる新しいコーパスに対して、名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出手法の適用例を示す。
このコーパスの主な課題は、1) アノテーションスキームが一般的なドメインコーパスで使用されるものとは大きく異なり、2) 文書は英語以外の言語で記述されている。
論文 参考訳(メタデータ) (2020-10-29T20:56:15Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。