論文の概要: Innovative tokenisation of structured data for LLM training
- arxiv url: http://arxiv.org/abs/2508.01685v1
- Date: Sun, 03 Aug 2025 09:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.007661
- Title: Innovative tokenisation of structured data for LLM training
- Title(参考訳): LLMトレーニングのための構造化データの革新的トークン化
- Authors: Kayvan Karim, Hani Ragab Hassen. Hadj Batatia,
- Abstract要約: 本稿では,構造化されたデータを大規模言語モデル(LLM)の訓練に適したシーケンシャルな形式に変換する,新しいハイブリッドなトークン化手法を提案する。
提案手法は効率が高く, ネットワークフロー3300万回以上を5時間以内で処理し, 6.18:1の有意なデータ圧縮比を達成した。
このプロセスは10億以上のトークンを計算的に管理可能なコーパスとなり、構造化されたデータ上で基礎モデルをトレーニングするための実行可能で一般化可能な経路を確立した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data representation remains a fundamental challenge in machine learning, particularly when adapting sequence-based architectures like Transformers and Large Language Models (LLMs) for structured tabular data. Existing methods often fail to cohesively encode the mix of numerical and categorical features or preserve the inherent structure of tables. This paper introduces a novel, hybrid tokenisation methodology designed to convert tabular data into a unified, sequential format suitable for LLM training. Our approach combines predefined fixed tokens to represent structural elements and low-cardinality categorical features, with a learned subword vocabulary using Byte-Pair Encoding (BPE) for high-cardinality and continuous values. We demonstrate the efficacy of this technique by applying it to a large-scale NetFlow dataset (CIDDS-001), preparing a corpus for a Network Intrusion Detection System (NIDS) foundation model. The evaluation shows that our method is highly efficient, processing over 31 million network flows in under five hours and achieving a significant data compression ratio of 6.18:1. This process resulted in a computationally manageable corpus of over one billion tokens, establishing a viable and generalisable pathway for training foundation models on structured data.
- Abstract(参考訳): データ表現は、特に構造化表データに対してTransformerやLarge Language Models (LLMs)のようなシーケンスベースのアーキテクチャを適用する場合、機械学習における根本的な課題である。
既存の手法は、数値的特徴とカテゴリー的特徴の混合を結合的に符号化したり、テーブル固有の構造を保存するのに失敗することが多い。
本稿では,表型データをLLMトレーニングに適した統一的,シーケンシャルなフォーマットに変換するために設計された,新しいハイブリッドなトークン化手法を提案する。
提案手法は, 構造要素と低値の分類特徴を表すために予め定義された固定トークンと, 高値と連続値にByte-Pair Encoding (BPE)を用いた学習サブワード語彙を組み合わせる。
本稿では,大規模なNetFlowデータセット(CIDDS-001)に適用し,ネットワーク侵入検知システム(NIDS)基盤モデルのためのコーパスを作成することにより,この手法の有効性を実証する。
評価の結果,提案手法は効率が高く,ネットワークフロー3300万回以上を5時間以内で処理し,データ圧縮比が6.18:1であることがわかった。
このプロセスは10億以上のトークンを計算的に管理可能なコーパスとなり、構造化されたデータ上で基礎モデルをトレーニングするための実行可能で一般化可能な経路を確立した。
関連論文リスト
- Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Dynamic Chunking for End-to-End Hierarchical Sequence Modeling [17.277753030570263]
本稿では,コンテンツとコンテキストに依存したセグメンテーション戦略を自動的に学習する動的チャンキング機構を実現する手法を提案する。
これを明示的な階層ネットワーク(H-Net)に組み込むことで、(単純に階層的な)トークン化-LM-detokenizationパイプラインを、完全にエンドツーエンドに学習した単一のモデルに置き換えることができる。
階層を複数のステージに反復すると、複数の抽象化レベルをモデル化することで、そのパフォーマンスがさらに向上する。
英語で事前訓練されたH-Netは、文字レベルの堅牢性を大幅に向上させ、意味のあるデータ依存のチャンキング戦略を、明確な監督なしに質的に学習する。
論文 参考訳(メタデータ) (2025-07-10T17:39:37Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats [0.0]
本研究では,非構造化テキストを構造化形式に変換する大規模言語モデルの能力を体系的に評価する。
実験により、数発のプロンプトを持つGPT-4oがブレークスルー性能を達成することが明らかとなった。
これらの発見は、様々な領域にまたがる自動構造化データ生成の新たな可能性を開く。
論文 参考訳(メタデータ) (2025-03-04T14:14:28Z) - Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。
高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文 参考訳(メタデータ) (2025-03-03T07:31:40Z) - Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - On Linearizing Structured Data in Encoder-Decoder Language Models: Insights from Text-to-SQL [8.57550491437633]
本研究では,エンコーダ-デコーダ言語モデル,特にT5における構造化データの線形処理について検討する。
この結果から,スキーマリンクや構文予測など,人間設計プロセスの模倣が可能であることが判明した。
また、構造ノードエンコーディングのエゴ中心の性質を含む、モデルの内部メカニズムに関する洞察を明らかにした。
論文 参考訳(メタデータ) (2024-04-03T01:16:20Z) - DictLLM: Harnessing Key-Value Data Structures with Large Language Models
for Enhanced Medical Diagnostics [36.057925881268226]
DictLLMは、医学実験室報告のようなキーバリュー構造化データのモデリングを改善するために設計された革新的なフレームワークである。
診断自動生成のための総合的な実世界医療実験室レポートデータセットを用いて,様々なLCMモデルを用いた実験を行った。
論文 参考訳(メタデータ) (2024-02-18T07:10:02Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。