論文の概要: jXBW: Fast Substructure Search in Large-Scale JSONL Datasets for Foundation Model Applications
- arxiv url: http://arxiv.org/abs/2508.12536v1
- Date: Mon, 18 Aug 2025 00:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.849512
- Title: jXBW: Fast Substructure Search in Large-Scale JSONL Datasets for Foundation Model Applications
- Title(参考訳): jXBW: ファンデーションモデルアプリケーションのための大規模JSONLデータセットにおける高速なサブ構造探索
- Authors: Yasuo Tabei,
- Abstract要約: 大規模Linesデータセットのサブ構造探索を高速化するjXBWを提案する。
i) 複数のオブジェクトをマージし,個々のIDを保存しながら木を結合したツリー表現,(ii)eXtended Burrows-Wheeler変換に基づく簡潔なデータ構造,(iii)効率的な3段階構造探索アルゴリズム。
- 参考スコア(独自算出の注目度): 0.21756081703275998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Substructure search in JSON Lines (JSONL) datasets is essential for modern applications such as prompt engineering in foundation models, but existing methods suffer from prohibitive computational costs due to exhaustive tree traversal and subtree matching. We present jXBW, a fast method for substructure search on large-scale JSONL datasets. Our method makes three key technical contributions: (i) a merged tree representation built by merging trees of multiple JSON objects while preserving individual identities, (ii) a succinct data structure based on the eXtended Burrows-Wheeler Transform that enables efficient tree navigation and subpath search, and (iii) an efficient three-step substructure search algorithm that combines path decomposition, ancestor computation, and adaptive tree identifier collection to ensure correctness while avoiding exhaustive tree traversal. Experimental evaluation on real-world datasets demonstrates that jXBW consistently outperforms existing methods, achieving speedups of 16$\times$ for smaller datasets and up to 4,700$\times$ for larger datasets over tree-based approaches, and more than 6$\times$10$^6$ over XML-based processing while maintaining competitive memory usage.
- Abstract(参考訳): JSONL(Substructure Search in JSON Lines)データセットは,基盤モデルの迅速なエンジニアリングなど,現代的なアプリケーションには不可欠だが,既存の手法では,樹木のトラバーサルやサブツリーのマッチングによる計算コストの制限に悩まされている。
本稿では,大規模JSONLデータセットのサブ構造探索を高速化するjXBWを提案する。
我々の手法は3つの重要な技術的貢献をしている。
i) 複数のJSONオブジェクトのツリーをマージし、個々のIDを保持しながら、統合されたツリー表現。
(ii)効率的なツリーナビゲーションとサブパス探索を可能にするeXtended Burrows-Wheeler変換に基づく簡潔なデータ構造
三 経路分解、祖先計算、適応木識別子収集を組み合わせた効率的な三段階部分構造探索アルゴリズムで、全木トラバーサルを回避しつつ、正確性を確保する。
実世界のデータセットに対する実験的評価では、jXBWは既存のメソッドを一貫して上回り、より小さなデータセットでは16$\times$、ツリーベースのアプローチでは4700$\times$、競合するメモリ使用を維持しながらXMLベースの処理では6$\times$10$^6$となっている。
関連論文リスト
- LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - DeepJSONEval: Benchmarking Complex Nested JSON Data Mining for Large Language Models [6.653834890554154]
多層ネスト構造は、データをキーと値のペア、配列、ネストオブジェクトに整理する。
例えば、ニュース集約では、オブジェクトは記事のメタデータ(タイトル、著者、日付)、コンテンツ(テキスト、マルチメディア)、マルチメディア情報(マルチダイアログ、キャプション)を階層的にネストすることができる。
DeepJSONEvalは、2100のマルチドメインインスタンスと深いネスト構造を特徴とする新しいベンチマークで、難易度によって分類される。
論文 参考訳(メタデータ) (2025-09-30T08:18:20Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering [27.37434534716611]
TreeHopはマルチホップ質問応答のための埋め込みレベルのフレームワークである。
TreeHopはクエリの埋め込みを動的に更新する。
TreeHopは、知識集約型アプリケーションにデプロイするための、より速く、よりコスト効率の良いソリューションです。
論文 参考訳(メタデータ) (2025-04-28T01:56:31Z) - A Query-Driven Approach to Space-Efficient Range Searching [12.760453906939446]
クエリのほぼ直線的なサンプルは、クエリ中に訪れたノード数がほぼ最適であるパーティションツリーを構築することができることを示す。
我々は、ノード処理を分類問題として扱い、浅いニューラルネットワークのような高速な分類器を活用して、実験的に効率的なクエリ時間を得ることにより、このアプローチを強化する。
我々のアルゴリズムは,クエリのサンプルに基づいて,セパレータに関連付けられたノードを持つバランスのとれたツリーを構築し,クエリの待ち行列を最小化する。
論文 参考訳(メタデータ) (2025-02-19T12:01:00Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - Leveraging Foundation Language Models (FLMs) for Automated Cohort Extraction from Large EHR Databases [50.552056536968166]
本稿では,2つの大規模かつ広くアクセス可能なEHRデータベース上で列マッチングを自動化するアルゴリズムを提案し,評価する。
提案手法は,学習済みの小型汎用言語モデルを用いて,13ドル列のうち12ドルを正確にマッチングし,高いトップ3の精度を92%の精度で達成する。
論文 参考訳(メタデータ) (2024-12-16T06:19:35Z) - Learning Tree-Structured Composition of Data Augmentation [16.435641358351976]
そこで本研究では,$k$変換の2進木構造合成を探索するアルゴリズムを提案する。
我々のアルゴリズムはランタイムの複雑さを$O(2d k)$で達成し、$O(kd)$よりもはるかに高速である。
論文 参考訳(メタデータ) (2024-08-26T16:04:13Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - scTree: Discovering Cellular Hierarchies in the Presence of Batch Effects in scRNA-seq Data [12.01555110624794]
scTreeは、ツリー構造データ表現を同時に学習しながら、バッチ効果を補正する。
scTreeがデータの基礎となるクラスタを発見できる7つのデータセットを実証的に示す。
論文 参考訳(メタデータ) (2024-06-27T16:16:55Z) - NL2KQL: From Natural Language to Kusto Query [1.7931930942711818]
NL2KQLは、大規模言語モデル(LLM)を使用して自然言語クエリ(NLQ)をKusto Query Language(KQL)クエリに変換する革新的なフレームワークである。
NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。
論文 参考訳(メタデータ) (2024-04-03T01:09:41Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Tree Learning: Optimal Algorithms and Sample Complexity [10.638365461509]
任意の分布から抽出したラベル付きサンプルから,データの階層木表現を学習する問題について検討する。
本稿では,この問題に対する最適なサンプル境界を,学習やオンライン学習など,いくつかの学習環境において提示する。
論文 参考訳(メタデータ) (2023-02-09T08:35:17Z) - On the Power of Learning-Augmented Search Trees [7.325724756104182]
本稿では,Treapsを用いた学習強化二分探索木(BST)について,慎重に設計した優先順位で検討する。
その結果、各項目の深さが予測重量$w_x$によって決定される単純な探索木となる。
論文 参考訳(メタデータ) (2022-11-16T22:50:40Z) - Integrating connection search in graph queries [6.948362325254044]
SPARQLやCypherといったグラフクエリ言語に接続ツリーパターン(CTP)を統合する方法を示す。
非常に大きな探索空間に対処するため,我々は効率的な刈り込み手法を提案し,我々のアルゴリズムMOLESPがプルーニングでも完備しているケースの集合を正式に確立する。
論文 参考訳(メタデータ) (2022-08-09T14:27:57Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。