論文の概要: jXBW: Fast Substructure Search in Large-Scale JSONL Datasets for Foundation Model Applications
- arxiv url: http://arxiv.org/abs/2508.12536v1
- Date: Mon, 18 Aug 2025 00:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.849512
- Title: jXBW: Fast Substructure Search in Large-Scale JSONL Datasets for Foundation Model Applications
- Title(参考訳): jXBW: ファンデーションモデルアプリケーションのための大規模JSONLデータセットにおける高速なサブ構造探索
- Authors: Yasuo Tabei,
- Abstract要約: 大規模Linesデータセットのサブ構造探索を高速化するjXBWを提案する。
i) 複数のオブジェクトをマージし,個々のIDを保存しながら木を結合したツリー表現,(ii)eXtended Burrows-Wheeler変換に基づく簡潔なデータ構造,(iii)効率的な3段階構造探索アルゴリズム。
- 参考スコア(独自算出の注目度): 0.21756081703275998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Substructure search in JSON Lines (JSONL) datasets is essential for modern applications such as prompt engineering in foundation models, but existing methods suffer from prohibitive computational costs due to exhaustive tree traversal and subtree matching. We present jXBW, a fast method for substructure search on large-scale JSONL datasets. Our method makes three key technical contributions: (i) a merged tree representation built by merging trees of multiple JSON objects while preserving individual identities, (ii) a succinct data structure based on the eXtended Burrows-Wheeler Transform that enables efficient tree navigation and subpath search, and (iii) an efficient three-step substructure search algorithm that combines path decomposition, ancestor computation, and adaptive tree identifier collection to ensure correctness while avoiding exhaustive tree traversal. Experimental evaluation on real-world datasets demonstrates that jXBW consistently outperforms existing methods, achieving speedups of 16$\times$ for smaller datasets and up to 4,700$\times$ for larger datasets over tree-based approaches, and more than 6$\times$10$^6$ over XML-based processing while maintaining competitive memory usage.
- Abstract(参考訳): JSONL(Substructure Search in JSON Lines)データセットは,基盤モデルの迅速なエンジニアリングなど,現代的なアプリケーションには不可欠だが,既存の手法では,樹木のトラバーサルやサブツリーのマッチングによる計算コストの制限に悩まされている。
本稿では,大規模JSONLデータセットのサブ構造探索を高速化するjXBWを提案する。
我々の手法は3つの重要な技術的貢献をしている。
i) 複数のJSONオブジェクトのツリーをマージし、個々のIDを保持しながら、統合されたツリー表現。
(ii)効率的なツリーナビゲーションとサブパス探索を可能にするeXtended Burrows-Wheeler変換に基づく簡潔なデータ構造
三 経路分解、祖先計算、適応木識別子収集を組み合わせた効率的な三段階部分構造探索アルゴリズムで、全木トラバーサルを回避しつつ、正確性を確保する。
実世界のデータセットに対する実験的評価では、jXBWは既存のメソッドを一貫して上回り、より小さなデータセットでは16$\times$、ツリーベースのアプローチでは4700$\times$、競合するメモリ使用を維持しながらXMLベースの処理では6$\times$10$^6$となっている。
関連論文リスト
- ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Learning Tree-Structured Composition of Data Augmentation [16.435641358351976]
そこで本研究では,$k$変換の2進木構造合成を探索するアルゴリズムを提案する。
我々のアルゴリズムはランタイムの複雑さを$O(2d k)$で達成し、$O(kd)$よりもはるかに高速である。
論文 参考訳(メタデータ) (2024-08-26T16:04:13Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - scTree: Discovering Cellular Hierarchies in the Presence of Batch Effects in scRNA-seq Data [12.01555110624794]
scTreeは、ツリー構造データ表現を同時に学習しながら、バッチ効果を補正する。
scTreeがデータの基礎となるクラスタを発見できる7つのデータセットを実証的に示す。
論文 参考訳(メタデータ) (2024-06-27T16:16:55Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Tree Learning: Optimal Algorithms and Sample Complexity [10.638365461509]
任意の分布から抽出したラベル付きサンプルから,データの階層木表現を学習する問題について検討する。
本稿では,この問題に対する最適なサンプル境界を,学習やオンライン学習など,いくつかの学習環境において提示する。
論文 参考訳(メタデータ) (2023-02-09T08:35:17Z) - On the Power of Learning-Augmented Search Trees [7.325724756104182]
本稿では,Treapsを用いた学習強化二分探索木(BST)について,慎重に設計した優先順位で検討する。
その結果、各項目の深さが予測重量$w_x$によって決定される単純な探索木となる。
論文 参考訳(メタデータ) (2022-11-16T22:50:40Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。