論文の概要: SEALing the Gap: A Reference Framework for LLM Inference Carbon Estimation via Multi-Benchmark Driven Embodiment
- arxiv url: http://arxiv.org/abs/2603.02949v1
- Date: Tue, 03 Mar 2026 12:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.799918
- Title: SEALing the Gap: A Reference Framework for LLM Inference Carbon Estimation via Multi-Benchmark Driven Embodiment
- Title(参考訳): SEALing the Gap:Multi-Benchmark Driven EmbodimentによるLLM推論炭素推定のための参照フレームワーク
- Authors: Priyavanshi Pathania, Rohit Mehra, Vibhu Saujanya Sharma, Vikrant Kaulgud, Tiffani Nevels, Sanjay Podder, Adam P. Burden,
- Abstract要約: 大規模言語モデルは、ソフトウェアエンジニアリングにおいて急速に勢いを増していますが、その炭素フットプリントの増加は、持続可能性に関する懸念を喚起します。
本稿では, LLM推定のための新しい参照フレームワークの指針について概説する。
我々はこれらの原理の初期の具体化であるSEALを導入し、マルチベンチマーク駆動のアプローチをプロンプト単位の炭素推定に活用する。
- 参考スコア(独自算出の注目度): 2.374660957323975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are rapidly gaining traction in software engineering, yet their growing carbon footprint raises pressing sustainability concerns. While training emissions are substantial, inference quickly surpasses them due to the sheer volume of prompts processed. This shift underscores the urgent need for accurate, prompt-level carbon measurement during inference to enable informed, sustainability-focused decision-making. To address the limitations of existing approaches, in this paper, we outline the guiding principles for a novel reference framework for LLM inference carbon estimation that can guide the design of future tools and provide a systematic foundation for advancing sustainability research in this domain. We also introduce SEAL, an early embodiment of these principles that leverages a multi-benchmark-driven approach for per-prompt carbon estimation. Its initial validation shows promising results, positioning SEAL as a foundation for standardized sustainability assessment across the LLM ecosystem.
- Abstract(参考訳): 大規模言語モデルは、ソフトウェアエンジニアリングにおいて急速に勢いを増していますが、その炭素フットプリントの増加は、持続可能性に関する懸念を喚起します。
トレーニングエミッションは実質的であるが、推論は処理されるプロンプトの量が多いため、すぐにそれを上回る。
このシフトは、情報的、持続可能性を重視した意思決定を可能にするために、推論中の正確な、即時的な炭素測定の緊急の必要性を浮き彫りにする。
既存手法の限界に対処するため、本稿では、将来のツールの設計をガイドし、この領域における持続可能性研究を推進するための体系的基盤を提供する、LCM推定炭素推定のための新しい参照フレームワークの指針を概説する。
また,これらの原理の初期の具体化であるSEALを導入する。
その最初の検証は有望な結果を示し、SEALをLLMエコシステム全体の標準化されたサステナビリティアセスメントの基礎と位置づけている。
関連論文リスト
- DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation [20.756497463882763]
逐次レコメンデーションのための統合された「シンク・テン・ディフューズ」フレームワークであるDiffuReasonを提案する。
潜時推論のための多段階思考トークン、中間表現をデノナイズするための拡散ベースの洗練、およびエンドツーエンドのグループ相対ポリシー最適化を統合している。
4つのベンチマークの実験では、DiffuReasonはさまざまなバックボーンアーキテクチャを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-10T12:55:30Z) - Toward Sustainable Generative AI: A Scoping Review of Carbon Footprint and Environmental Impacts Across Training and Inference Stages [2.2758077237273846]
生成AIは急速に普及し、社会的、経済的に重要な価値を生み出している。
大規模サービス運用において発生した累積的環境フットプリントは,比較的少なくなった。
本研究は,AIカーボンフットプリント評価における方法論と研究動向のスコーピングレビューを行う。
論文 参考訳(メタデータ) (2025-11-21T11:59:34Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Breaking the ICE: Exploring promises and challenges of benchmarks for Inference Carbon & Energy estimation for LLMs [8.377809633825196]
本稿では, 現状のアプローチの課題について論じるとともに, 炭素排出量を推定するフレームワークであるR-ICEについて述べる。
我々の有望な検証結果は、ベンチマークベースのモデリングが推定放射推定に大きな可能性を秘めていることを示唆している。
論文 参考訳(メタデータ) (2025-06-10T12:23:02Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [92.6187727249868]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - A Survey of Automatic Hallucination Evaluation on Natural Language Generation [21.37538215193138]
LLM(Large Language Models)の急速な進歩は、モデルの信頼性を保証するために、幻覚を確実に評価する方法という、大きな課題をもたらしました。
本調査は105の評価手法を体系的に分析し,77.1%がLLMを対象としていることを明らかにする。
基礎的なデータセットとベンチマークの調査と評価方法論の分類に基づいて、フィールドを整理するための構造化された枠組みを定式化する。
論文 参考訳(メタデータ) (2024-04-18T09:52:18Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。