論文の概要: Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2605.29676v1
- Date: Thu, 28 May 2026 09:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.14943
- Title: Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems
- Title(参考訳): 表記事項:エージェントAIシステムにおけるトークン最適化フォーマットのベンチマーク研究
- Authors: Lorenz Kutschka, Bernhard Geiger,
- Abstract要約: Agentic AIシステムの大規模言語モデルは、ツールスキーマと実行結果を構造化データとして消費する。
最近の研究は、よりコンパクトな代替品として、TOON(Token-Oriented Object Notation)やTRON(Token Reduced Object Notation)などのトークン最適化代替案を提案する。
我々は,TOONとTRONを4つのエージェントベンチマーク (BFCL, MCPBenchPP, MCP-Universe, StableTool) と5つのオープンウェイトLDMで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models in Agentic AI systems consume tool schemas and execution results and emit tool invocations as structured data. The default language for that exchange, JSON, was designed for application-to-application interchange rather than token efficiency, so its structural elements impose substantial token overhead. Recent work proposes token-optimized alternatives such as TOON (Token-Oriented Object Notation) and TRON (Token Reduced Object Notation) as more compact replacements, but these formats have been evaluated only on isolated comprehension or generation tasks. Whether their token reductions hold inside end-to-end agentic loops therefore remains an open question. We evaluate TOON and TRON on four agentic benchmarks (BFCL, MCPToolBenchPP, MCP-Universe, StableToolBench) and five open-weight LLMs, decoupling input compression from output compression to measure comprehension and generation independently. TRON reduces tokens by up to 27% with accuracy within 14pp of the JSON baseline. TOON achieves up to 18% reduction at a similar 9pp accuracy cost, but additionally cascades on multi-turn parsing failures and collapses parallel tool-call output for most models.
- Abstract(参考訳): Agentic AIシステムの大規模言語モデルは、ツールスキーマと実行結果を消費し、構造化データとしてツール呼び出しを出力する。
その交換のデフォルト言語であるJSONは、トークン効率よりもアプリケーション間交換用に設計されたため、その構造的要素は相当なトークンオーバーヘッドを課している。
最近の研究は、よりコンパクトな代替品としてTOON(Token-Oriented Object Notation)やTRON(Token Reduced Object Notation)などのトークン最適化代替品を提案するが、これらのフォーマットは独立した理解や生成タスクでのみ評価されている。
したがって、トークンの還元が終端から終端までのエージェントループの中に保持されるかどうかは未解決の問題である。
我々は,TOONとTRONを4つのエージェントベンチマーク (BFCL, MCPToolBenchPP, MCP-Universe, StableToolBench) と5つのオープンウェイトLLMで評価し,入力圧縮を出力圧縮から切り離して理解と生成を独立に測定した。
TRONは、JSONベースラインの14pp以内の精度でトークンを最大27%削減する。
TOONは、同様の9ppの精度で最大18%の削減を実現しているが、マルチターン解析の失敗でカスケードが増加し、ほとんどのモデルで並列ツールコール出力が崩壊する。
関連論文リスト
- TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments [0.0]
生産エージェントフレームワークは、言語モデルによる解釈ではなく、機械解析用に設計されたフォーマットであるMPPとしてツールスキーマを送信する。
小型モデル(4B-14B)では、このプロトコルのミスマッチが、本番サイズでのツール使用障害の大部分の原因となっている。
本稿では,このミスマッチをAPI境界で解決する決定論的ツールスキーマコンパイラTSCGを提案する。
論文 参考訳(メタデータ) (2026-05-04T15:35:45Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Towards Improved Sentence Representations using Token Graphs [41.412173502714225]
GLOTは構造を意識したプールモジュールで、リレーショナル学習後にアグリゲーションとしてプールを再構成する。
トークンの90%がランダムなイントラクタである診断ストレステストでは、GLOTは97%以上の精度を維持し、ベースラインメソッドは崩壊する。
GLUEやMTEBのようなベンチマークの最先端技術と競合し、トレーニング可能なパラメータは20倍少なく、パラメータ効率のよい微調整手法と比較してトレーニング時間を100倍以上高速化する。
論文 参考訳(メタデータ) (2026-03-03T09:00:01Z) - Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation [0.0]
Token-Oriented Object Notation (TOON) は、構造化データを LLM に転送するためのシリアライズフォーマットとして、トークンの使用量を大幅に削減することを目的としている。
これをテストするために,構造的複雑性,検証,および平文生成と構造的出力の比較に関して,いくつかのテストケースを作成するベンチマークを行った。
論文 参考訳(メタデータ) (2026-02-08T11:58:03Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - TensorSLM: Energy-efficient Embedding Compression of Sub-billion Parameter Language Models on Low-end Devices [19.897367559948336]
本論文では,Train Decomposition (TTD) を用いたトレーニングフリートークン埋め込み圧縮手法を提案する。
典型的なローエンドデバイスであるRaspberry Pi上で,圧縮率,言語タスク性能,レイテンシ,省エネ性を考慮した低ランク構造の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T14:09:43Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。