論文の概要: ONTO: A Token-Efficient Columnar Notation for LLM Input Optimization
- arxiv url: http://arxiv.org/abs/2604.17512v1
- Date: Sun, 19 Apr 2026 16:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.56495
- Title: ONTO: A Token-Efficient Columnar Notation for LLM Input Optimization
- Title(参考訳): OnTO: LLM入力最適化のためのToken-Efficient Columnar Notation
- Authors: Harshavardhanan Deekeswar,
- Abstract要約: ONTOは列挙式で、エンティティ毎にフィールド名を宣言し、インデントベースの階層を持つパイプで区切られた行に値をアレンジする。
Ontoは、人間の可読性とネストされた構造サポートを維持しながら、レコードごとのキー繰り返しを排除します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Serialization formats designed for document interchange impose structural overhead that becomes prohibitive when large language models consume operational data at scale. A modest dataset of 1,000 IoT sensor readings serialized as JSON requires approximately 80,000 tokens - the majority spent on repeated field names, nested braces, and structural punctuation rather than semantic content. We present ONTO (Object Notation for Token Optimization), a columnar notation that declares field names once per entity and arranges values in pipe-delimited rows with indentation-based hierarchy. This schema-once, data-many design eliminates per-record key repetition while preserving human readability and nested structure support. Evaluation across three synthetic operational datasets demonstrates 46-51% token reduction versus JSON, with stable scaling from 100 to 1,000 records. Controlled inference benchmarks on Qwen2.5-7B show corresponding 5-10% latency improvement. Comprehension validation confirms no material degradation in LLM task accuracy across lookup, counting, extraction, and aggregation operations when format context is provided. Ablation analysis reveals that key repetition accounts for the majority of JSON overhead, with indentation costs in nested structures explaining the 4-percentage-point gap between flat and hierarchical data. ONTO occupies a previously unfilled position in the serialization landscape: columnar efficiency with hierarchical structure, optimized for LLM context windows rather than document interchange. Code and specification are available at https://github.com/harsh-aranga/onto.
- Abstract(参考訳): 文書交換用に設計されたシリアライズフォーマットは、大規模言語モデルが大規模に運用データを消費するとき、構造上のオーバーヘッドを課す。
JSONとしてシリアライズされた1,000のIoTセンサ読み取りの控えめなデータセットは、約80,000トークンを必要とします。
OnTO(Object Notation for Token Optimization)は、エンティティ毎にフィールド名を宣言し、インデントベースの階層を持つパイプ切断行に値をアレンジするカラム型表記法である。
このスキーマオンスなデータ管理設計は、人間の可読性とネストされた構造サポートを維持しながら、レコードごとのキー繰り返しを排除します。
3つの合成オペレーショナルデータセットによる評価では、トークンの削減率は、JSONに対して46-51%で、100から1000レコードまでの安定したスケーリングが示されている。
Qwen2.5-7Bの制御された推論ベンチマークは、対応する5-10%のレイテンシ改善を示している。
包括的検証は、フォーマットコンテキストが提供されると、ルックアップ、カウント、抽出、集約操作全体にわたるLLMタスクの精度が劣化しないことを確認する。
アブレーション分析は、主要な反復がJSONオーバーヘッドの大部分を占めており、フラットデータと階層データの間の4パーセントのポイントギャップを説明するネスト構造におけるインデンテーションコストが説明できることを示している。
OnTOはシリアライゼーションの状況において、以前未完成の立場を占めており、列の効率と階層構造を持ち、文書の交換ではなく、LLMコンテキストウィンドウに最適化されている。
コードと仕様はhttps://github.com/harsh-aranga/onto.comで公開されている。
関連論文リスト
- JTON: A Token-Efficient JSON Superset with Zen Grid Tabular Encoding for Large Language Models [0.010480658740597679]
Zen Gridは列ヘッダを1行に分解し、値をドメインでエンコードする。
Rust/PyO3リファレンス実装では,SIMDアクセラレーションによる構文解析が,Pythonの1.4倍の速度で追加されている。
12LLMの生成テストは、少数ショットとゼロショットの両方の設定で100%有効である。
論文 参考訳(メタデータ) (2026-04-07T13:26:23Z) - MDKeyChunker: Single-Call LLM Enrichment with Rolling Keys and Key-Based Restructuring for High-Accuracy RAG [0.0]
RAGパイプラインは通常、ドキュメント構造を無視し、境界を越えたセマンティックユニットを断片化し、メタデータ抽出のためにチャンク毎の複数のLCMコールを必要とする固定サイズのチャンクに依存している。
MDKeyChunkerはMarkdown文書のための3段階パイプラインであり、ヘッダ、コードブロック、テーブル、リストをアトミック単位として扱う構造対応チャンキングを実行する。
シングルコール設計では、1つのLSM呼び出しで7つのメタデータフィールド全てを抽出し、フィールド毎の抽出パスを分離する必要がなくなる。
ローリングキーの伝搬は、手動のスコアリングをLLMネイティブなセマンティックマッチングに置き換える。
論文 参考訳(メタデータ) (2026-03-08T07:28:53Z) - Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - CAE: Character-Level Autoencoder for Non-Semantic Relational Data Grouping [0.9595254895337946]
本稿では,非意味的関係データセットにおいて,意味論的に同一の列を自動的に識別し,グループ化する新しい文字レベルオートエンコーダ(CAE)手法を提案する。
意味的解釈可能性の制限に苦しむ従来の自然言語処理(NLP)モデルとは異なり、我々の手法は固定辞書制約で文字レベルで動作する。
固定辞書サイズを維持することにより、メモリ要件とトレーニング時間の両方を著しく削減し、大規模産業データ環境の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2025-11-10T22:07:22Z) - JSON Whisperer: Efficient JSON Editing with LLMs [1.0535472555708638]
大規模言語モデル(LLM)は、自然言語コマンドを通じて文書を修正できるが、現在のアプローチでは、編集毎に構造全体を再生し、計算の効率が低下する。
提案するWhispererは,完全なドキュメントではなく,必要な修正のみを表現したRFC 6902の差分パッチを生成するためのフレームワークである。
論文 参考訳(メタデータ) (2025-10-06T11:36:46Z) - DeepJSONEval: Benchmarking Complex Nested JSON Data Mining for Large Language Models [6.653834890554154]
多層ネスト構造は、データをキーと値のペア、配列、ネストオブジェクトに整理する。
例えば、ニュース集約では、オブジェクトは記事のメタデータ(タイトル、著者、日付)、コンテンツ(テキスト、マルチメディア)、マルチメディア情報(マルチダイアログ、キャプション)を階層的にネストすることができる。
DeepJSONEvalは、2100のマルチドメインインスタンスと深いネスト構造を特徴とする新しいベンチマークで、難易度によって分類される。
論文 参考訳(メタデータ) (2025-09-30T08:18:20Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。