Fugu-MT 論文翻訳(概要): An energy-based comparative analysis of common approaches to text classification in the Legal domain

論文の概要: An energy-based comparative analysis of common approaches to text classification in the Legal domain

arxiv url: http://arxiv.org/abs/2311.01256v2
Date: Mon, 5 Feb 2024 11:13:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 04:17:10.885010
Title: An energy-based comparative analysis of common approaches to text classification in the Legal domain
Title（参考訳）: 法領域におけるテキスト分類への共通アプローチのエネルギーベース比較分析
Authors: Sinan Gultekin and Achille Globo and Andrea Zugarini and Marco Ernandes and Leonardo Rigutini
Abstract要約: 大規模言語モデル(LLM)は、学術や産業におけるNLP問題に対処するために広く採用されている。本稿では,LexGLUEベンチマークでLLMと従来のアプローチ(SVMなど)を詳細に比較する。その結果、最も単純なアルゴリズムは大きなLLMに非常に近い性能を達成できることがわかった。
参考スコア（独自算出の注目度）: 0.856335408411906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most Machine Learning research evaluates the best solutions in terms of performance. However, in the race for the best performing model, many important aspects are often overlooked when, on the contrary, they should be carefully considered. In fact, sometimes the gaps in performance between different approaches are neglectable, whereas factors such as production costs, energy consumption, and carbon footprint must take into consideration. Large Language Models (LLMs) are extensively adopted to address NLP problems in academia and industry. In this work, we present a detailed quantitative comparison of LLM and traditional approaches (e.g. SVM) on the LexGLUE benchmark, which takes into account both performance (standard indices) and alternative metrics such as timing, power consumption and cost, in a word: the carbon-footprint. In our analysis, we considered the prototyping phase (model selection by training-validation-test iterations) and in-production phases separately, since they follow different implementation procedures and also require different resources. The results indicate that very often, the simplest algorithms achieve performance very close to that of large LLMs but with very low power consumption and lower resource demands. The results obtained could suggest companies to include additional evaluations in the choice of Machine Learning (ML) solutions.
Abstract（参考訳）: ほとんどの機械学習研究は、パフォーマンスの観点から最高のソリューションを評価します。しかし、最高のパフォーマンスモデルを求めるレースでは、多くの重要な側面がしばしば見過ごされ、反対に、慎重に検討されるべきである。実際、異なるアプローチ間のパフォーマンスのギャップは無視できることもあるが、生産コスト、エネルギー消費量、カーボンフットプリントといった要因を考慮する必要がある。大規模言語モデル(LLM)は、学術や産業におけるNLP問題に対処するために広く採用されている。本稿では,LexGLUEベンチマークにおけるLCMと従来のアプローチ(例えばSVM)の詳細な定量的比較を行い,その性能(標準指標)と,時間,消費電力,コストといった代替指標(カーボンフットプリント)の両方を考慮に入れた。本分析では,異なる実装手順に従い,異なるリソースを必要とするため,プロトタイピングフェーズ(トレーニング検証テストの繰り返しによるモデル選択)と本運用フェーズを別々に検討した。その結果、最も単純なアルゴリズムはLLMに非常に近い性能を達成できるが、消費電力が極めて少なく、リソースの要求も少ないことが示唆された。その結果、機械学習(ML)ソリューションの選択にさらなる評価を加えることが示唆された。

関連論文リスト

Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-11-23T06:40:47Z)
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。 VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文参考訳（メタデータ） (2024-11-02T15:23:28Z)
Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements [1.6637373649145606]
大規模言語モデル (LLM) は, 有効な検索関連評価指標としての可能性を示している。さまざまなコンテキストや特定のユースケースにおいて、モデルが常に最適に機能する包括的なガイダンスが欠如しています。本分析では,コストと精度のトレードオフについて検討し,モデルの性能が文脈によって大きく異なることを明らかにする。
論文参考訳（メタデータ） (2024-10-25T21:29:04Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。 NIAHのような合成タスクは、下流のパフォーマンスを確実に予測できない。ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクが完全コンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文参考訳（メタデータ） (2024-10-03T17:20:11Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)
Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。 HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-22T17:59:30Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)
HULK: An Energy Efficiency Benchmark Platform for Responsible Natural Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文参考訳（メタデータ） (2020-02-14T01:04:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。