論文の概要: The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
- arxiv url: http://arxiv.org/abs/2507.13302v1
- Date: Thu, 17 Jul 2025 17:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.589926
- Title: The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
- Title(参考訳): ジェネレーティブ・エナジー・アリーナ(GEA) : 大規模言語モデル(LLM)による人的評価
- Authors: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego,
- Abstract要約: 本稿では,評価過程におけるモデルエネルギー消費に関する情報を取り入れた生成エネルギーアリーナであるGAAについて述べる。
GEAによる予備的な結果も提示され、多くの質問に対して、ユーザーがエネルギー消費に気付くと、より小さく、よりエネルギー効率の良いモデルを好むことが示されている。
- 参考スコア(独自算出の注目度): 3.0059120458540383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of large language models is a complex task, in which several approaches have been proposed. The most common is the use of automated benchmarks in which LLMs have to answer multiple-choice questions of different topics. However, this method has certain limitations, being the most concerning, the poor correlation with the humans. An alternative approach, is to have humans evaluate the LLMs. This poses scalability issues as there is a large and growing number of models to evaluate making it impractical (and costly) to run traditional studies based on recruiting a number of evaluators and having them rank the responses of the models. An alternative approach is the use of public arenas, such as the popular LM arena, on which any user can freely evaluate models on any question and rank the responses of two models. The results are then elaborated into a model ranking. An increasingly important aspect of LLMs is their energy consumption and, therefore, evaluating how energy awareness influences the decisions of humans in selecting a model is of interest. In this paper, we present GEA, the Generative Energy Arena, an arena that incorporates information on the energy consumption of the model in the evaluation process. Preliminary results obtained with GEA are also presented, showing that for most questions, when users are aware of the energy consumption, they favor smaller and more energy efficient models. This suggests that for most user interactions, the extra cost and energy incurred by the more complex and top-performing models do not provide an increase in the perceived quality of the responses that justifies their use.
- Abstract(参考訳): 大規模言語モデルの評価は複雑な作業であり、いくつかのアプローチが提案されている。
最も一般的なのは、LLMがさまざまなトピックの複数の選択質問に答えなければならない自動ベンチマークの使用である。
しかし,本手法は,人間との相関性に乏しい,特定の制限がある。
もう一つのアプローチは、人間がLSMを評価することである。
これは、多くの評価者を募集し、モデルのレスポンスをランク付けすることで、従来の研究を非現実的に(そして費用がかかる)実行させることを評価するモデルが増えているため、スケーラビリティの問題を引き起こす。
別のアプローチとして、人気のあるLMアリーナ(英語版)のようなパブリックアリーナを使用することがあり、ユーザーは任意の質問に対して自由にモデルを評価でき、2つのモデルのレスポンスをランク付けできる。
結果はモデルランキングに詳述される。
LLMのますます重要な側面は、そのエネルギー消費であり、したがって、モデルを選択する際のエネルギー意識が人間の決定にどのように影響するかを評価することである。
本稿では,評価過程におけるモデルのエネルギー消費に関する情報を組み込んだ,生成エネルギーアリーナであるGAAについて述べる。
GEAによる予備的な結果も提示され、多くの質問に対して、ユーザーがエネルギー消費に気付くと、より小さく、よりエネルギー効率の良いモデルを好むことが示されている。
これは、ほとんどのユーザインタラクションにおいて、より複雑で高いパフォーマンスのモデルによって引き起こされる余分なコストとエネルギーは、彼らの使用を正当化する応答の品質を向上させるものではないことを示唆している。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - Green MLOps to Green GenOps: An Empirical Study of Energy Consumption in Discriminative and Generative AI Operations [2.2765705959685234]
本研究では,実世界のMLOpsパイプラインにおける識別型および生成型AIモデルのエネルギー消費について検討する。
さまざまな構成、モデル、データセットにわたるレプリケーションの容易性を保証するために、ソフトウェアベースのパワー測定を採用しています。
論文 参考訳(メタデータ) (2025-03-31T10:28:04Z) - What is the Role of Small Models in the LLM Era: A Survey [13.195074492564332]
大規模言語モデル(LLM)は人工知能(AGI)の進歩に大きな進歩をもたらし、GPT-4やLLaMA-405Bのような大規模モデルの開発に繋がった。
モデルのサイズを拡大すると、計算コストとエネルギー消費が指数関数的に増加し、これらのモデルは限られたリソースを持つ学術研究者やビジネスにとって実用的ではない。
同時に、Small Models (SM) は実際的な設定で頻繁に使用されるが、その重要性は過小評価されている。
論文 参考訳(メタデータ) (2024-09-10T20:45:43Z) - What is the best model? Application-driven Evaluation for Large Language Models [7.054112690519648]
A-Evalは、一般的な大規模言語モデルのアプリケーション駆動評価ベンチマークである。
我々は,678組の質問・回答ペアからなるデータセットを,アノテート・アノテート・レビューのプロセスを通じて構築する。
モデルスケールと課題難易度に関する興味深い法則を明らかにし、最適なモデルを選択するための実現可能な方法を提案する。
論文 参考訳(メタデータ) (2024-06-14T04:52:15Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Using LLMs to Model the Beliefs and Preferences of Targeted Populations [4.0849074543032105]
本研究では,人間の嗜好をモデル化する大規模言語モデル (LLM) の整合性について考察する。
特定の集団の信念、好み、行動のモデル化は、様々な応用に有用である。
論文 参考訳(メタデータ) (2024-03-29T15:58:46Z) - Towards Personalized Evaluation of Large Language Models with An
Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文 参考訳(メタデータ) (2024-03-13T07:31:20Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - An energy-based comparative analysis of common approaches to text
classification in the Legal domain [0.856335408411906]
大規模言語モデル(LLM)は、学術や産業におけるNLP問題に対処するために広く採用されている。
本稿では,LexGLUEベンチマークでLLMと従来のアプローチ(SVMなど)を詳細に比較する。
その結果、最も単純なアルゴリズムは大きなLLMに非常に近い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-11-02T14:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。