論文の概要: Are LLMs Ready for TOON? Benchmarking Structural Correctness-Sustainability Trade-offs in Novel Structured Output Formats
- arxiv url: http://arxiv.org/abs/2601.12014v1
- Date: Sat, 17 Jan 2026 11:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.418617
- Title: Are LLMs Ready for TOON? Benchmarking Structural Correctness-Sustainability Trade-offs in Novel Structured Output Formats
- Title(参考訳): LLMはTOON対応可能か? : 新しい構造出力フォーマットにおける構造的正確性-持続可能性トレードオフのベンチマーク
- Authors: Elio Masciari, Vincenzo Moscato, Enea Vincenzo Napolitano, Gian Marco Orlando, Marco Perillo, Diego Russo,
- Abstract要約: 大規模言語モデル(LLM)は、下流システムのための構造化された機械可読出力を生成するためにますます必要とされる。
構造化された出力形式は、正確性だけでなく、環境効率についても評価されるべきである。
本稿では, トークン使用量, 生成時間, 推定炭素排出量を測定する構造生成のための持続可能性を考慮した評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.0663621870807996
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly required to generate structured, machine-readable outputs for downstream systems. While recent benchmarks have focused on evaluating the structural correctness of such outputs, the environmental impact of inference for different output formats has largely been overlooked. In this paper, we argue that structured output formats should be assessed not only in terms of correctness, but also with respect to their environmental efficiency. To this end, we introduce a sustainability-aware evaluation framework for structured generation that measures token usage, generation time, and estimated carbon emissions. Within this framework, we propose the Environment-Aware Generation Correctness Score (GCS_env), a unified metric that integrates structural correctness with carbon-aware efficiency. Using this framework, we systematically benchmark the novel TOON format against established representations (JSON, XML, YAML) across multiple LLMs spanning different architectures and parameter scales. Our results reveal a consistent trade-off: TOON yields markedly more compact outputs and lower emissions, but lower structural correctness when models lack native support. We show that increased model capacity reduces this gap and that environment-aware scoring can shift format rankings depending on deployment priorities. highlighting the need for sustainability-inclusive benchmarking and provides empirical evidence that compact representations such as TOON can offer practical advantages in large-scale, carbon-conscious LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、下流システムのための構造化された機械可読出力を生成するためにますます必要とされる。
最近のベンチマークでは、これらの出力の構造的正当性の評価に焦点が当てられているが、異なる出力形式に対する推論の環境への影響は概ね見過ごされている。
本稿では, 構造化された出力形式は, 正確性だけでなく, 環境効率においても評価されるべきである,と論じる。
そこで本稿では, トークン使用量, 生成時間, 推定炭素排出量を測定する構造生成のための持続可能性を考慮した評価フレームワークを提案する。
本枠組みでは, 構造的正しさと炭素認識効率を一体化する統一計量GCS_env(Environmental-Aware Generation Correctness Score)を提案する。
このフレームワークを用いて、異なるアーキテクチャとパラメータスケールにまたがる複数のLLMに対して、確立された表現(JSON、XML、YAML)に対して、新しいTOONフォーマットを体系的にベンチマークする。
TOONは、よりコンパクトな出力と低いエミッションを得るが、モデルがネイティブサポートを欠いている場合、構造的正しさは低い。
モデルキャパシティの増大によってこのギャップが減り、環境に配慮したスコアリングが、デプロイメントの優先順位に応じてフォーマットランキングをシフトできることを示す。
持続可能性非包括的なベンチマークの必要性を強調し、TOONのようなコンパクトな表現が大規模で炭素を意識したLCMデプロイメントにおいて実用的な利点をもたらすという実証的な証拠を提供する。
関連論文リスト
- RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs [0.08594140167290097]
大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。
このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-29T04:47:14Z) - STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability [11.095198847819573]
大規模言語モデル(LLM)は、構造化データ生成のためにますます多くデプロイされている。
LLM生成した構造化出力の整合性の評価と改善のための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T02:49:52Z) - Effects of structure on reasoning in instance-level Self-Discover [0.0]
本稿では、Self-Discoverフレームワークのインスタンスレベルの適応であるiSelf-Discoverを紹介し、それを用いて動的に生成された構造化推論と非構造化推論との比較を行う。
最先端のオープンソースモデルを用いた多種多様なベンチマークによる実証的評価は、非構造化推論に対する一貫した優位性を支持している。
論文 参考訳(メタデータ) (2025-07-04T07:28:42Z) - Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。
本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。
我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文 参考訳(メタデータ) (2025-04-15T17:59:43Z) - Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization [49.88778604259453]
我々は,大言語モデル (LLM) をフェデレート学習 (FL) 設定で微調整する方法として,KTO (Kahneman-Tversky Optimization) を評価した。
オリジナルの(KTOO)と再配布された(KTOR)構成の両方において、KTOはすべてのベンチマークで一貫してDPOを上回っている。
これらの知見は、KTOをFLの堅牢でスケーラブルな微調整方法として確立し、プライバシー保護、分散化、異種環境への採用を動機付けている。
論文 参考訳(メタデータ) (2025-02-20T01:44:21Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs [0.0]
本稿では,Small Language Models(SLM)とVision Language Models(VLM)の性能解析を行う。
モデル性能と二酸化炭素排出量のトレードオフを定量化するために,CEGI(Carbon Efficient Gain Index)と呼ばれる新しい指標を導入する。
以上の結果から,大規模モデルによる精度の限界向上は,二酸化炭素排出量の大幅な増加を正当化するものではないことが示唆された。
論文 参考訳(メタデータ) (2024-12-03T17:32:47Z) - Adaptable Embeddings Network (AEN) [49.1574468325115]
我々はカーネル密度推定(KDE)を用いた新しいデュアルエンコーダアーキテクチャであるAdaptable Embeddings Networks (AEN)を紹介する。
AENは、再トレーニングせずに分類基準のランタイム適応を可能にし、非自己回帰的である。
アーキテクチャのプリプロセスとキャッシュ条件の埋め込み能力は、エッジコンピューティングアプリケーションやリアルタイム監視システムに最適である。
論文 参考訳(メタデータ) (2024-11-21T02:15:52Z) - Structural Bias for Aspect Sentiment Triplet Extraction [15.273669042985883]
アスペクト感情三重項抽出(ASTE)には構造バイアスが利用され,性能が向上した。
構造バイアスを明示的に組み込むことは効率に悪影響を及ぼすが、事前訓練された言語モデル(PLM)はすでに暗黙的な構造を捉えることができる。
そこで本研究では,PLMにおける構造バイアスを統合するためのアダプタと,低コストで計算可能な相対的位置構造を用いて,効率上の問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-02T05:02:18Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。