論文の概要: Assessing Resource-Performance Trade-off of Natural Language Models
using Data Envelopment Analysis
- arxiv url: http://arxiv.org/abs/2211.01486v1
- Date: Wed, 2 Nov 2022 21:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:34:39.441036
- Title: Assessing Resource-Performance Trade-off of Natural Language Models
using Data Envelopment Analysis
- Title(参考訳): データ包絡分析を用いた自然言語モデルの資源パフォーマンストレードオフの評価
- Authors: Zachary Zhou, Alisha Zachariah, Devin Conathan, Jeffery Kline
- Abstract要約: データ・エンベロープメント・アナリティクス(DEA)を資源・資源間のトレードオフを評価する問題に適用する。
DEAは1つ以上の入力を消費し、少なくとも1つの出力を出力する抽象単位の生産性を測定する非パラメトリックな方法である。
我々は、自然言語モデルをDEAに適した単位として再キャストし、モデルの性能と効率を定量化するための効果的なフレームワークを構築するためにDEAを使用できることを示す。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language models are often summarized through a high-dimensional set
of descriptive metrics including training corpus size, training time, the
number of trainable parameters, inference times, and evaluation statistics that
assess performance across tasks. The high dimensional nature of these metrics
yields challenges with regard to objectively comparing models; in particular it
is challenging to assess the trade-off models make between performance and
resources (compute time, memory, etc.).
We apply Data Envelopment Analysis (DEA) to this problem of assessing the
resource-performance trade-off. DEA is a nonparametric method that measures
productive efficiency of abstract units that consume one or more inputs and
yield at least one output. We recast natural language models as units suitable
for DEA, and we show that DEA can be used to create an effective framework for
quantifying model performance and efficiency. A central feature of DEA is that
it identifies a subset of models that live on an efficient frontier of
performance. DEA is also scalable, having been applied to problems with
thousands of units. We report empirical results of DEA applied to 14 different
language models that have a variety of architectures, and we show that DEA can
be used to identify a subset of models that effectively balance resource
demands against performance.
- Abstract(参考訳): 自然言語モデルは、トレーニングコーパスのサイズ、トレーニング時間、トレーニング可能なパラメータの数、推論時間、タスク間のパフォーマンスを評価する評価統計を含む、高次元の記述的メトリクスセットを通じてしばしば要約される。
特に、パフォーマンスとリソース(計算時間、メモリなど)の間のトレードオフモデルを評価するのは困難である。
データエンベロープメント分析(Data Envelopment Analysis, DEA)を資源性能トレードオフを評価する問題に適用する。
DEAは1つ以上の入力を消費し、少なくとも1つの出力を出力する抽象単位の生産性を測定する非パラメトリックな方法である。
我々は、自然言語モデルをDEAに適した単位として再キャストし、モデルの性能と効率を定量化するための効果的なフレームワークを構築するためにDEAを使用できることを示す。
DEAの中心的な特徴は、パフォーマンスの効率的なフロンティアに存在するモデルのサブセットを特定することである。
DEAはスケーラブルで、何千ものユニットの問題にも適用されている。
様々なアーキテクチャを持つ14の異なる言語モデルに適用されたDEAの実証結果を報告し、性能に対するリソース要求を効果的にバランスさせるモデルのサブセットを特定するためにDEAが使用できることを示す。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Generalizable Error Modeling for Search Relevance Data Annotation Tasks [0.0]
人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能が低下する可能性があるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの産業規模のMLアプリケーションを対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。
特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T07:48:01Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A global analysis of metrics used for measuring performance in natural
language processing [9.433496814327086]
自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。
結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T11:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。