論文の概要: ANLS* -- A Universal Document Processing Metric for Generative Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.03848v2
- Date: Tue, 27 Feb 2024 13:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:09:04.314543
- Title: ANLS* -- A Universal Document Processing Metric for Generative Large
Language Models
- Title(参考訳): anls* -- 生成型大規模言語モデルのためのユニバーサルドキュメント処理メトリック
- Authors: David Peer, Philemon Sch\"opf, Volckmar Nebendahl, Alexander Rietzler,
Sebastian Stabinger
- Abstract要約: 本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
- 参考スコア(独自算出の注目度): 43.387660692869915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, discriminative models have been the predominant choice for
tasks like document classification and information extraction. These models
make predictions that fall into a limited number of predefined classes,
facilitating a binary true or false evaluation and enabling the direct
calculation of metrics such as the F1 score. However, recent advancements in
generative large language models (GLLMs) have prompted a shift in the field due
to their enhanced zero-shot capabilities, which eliminate the need for a
downstream dataset and computationally expensive fine-tuning. However,
evaluating GLLMs presents a challenge as the binary true or false evaluation
used for discriminative models is not applicable to the predictions made by
GLLMs. This paper introduces a new metric for generative models called ANLS*
for evaluating a wide variety of tasks, including information extraction and
classification tasks. The ANLS* metric extends existing ANLS metrics as a
drop-in-replacement and is still compatible with previously reported ANLS
scores. An evaluation of 7 different datasets and 3 different GLLMs using the
ANLS* metric is also provided, demonstrating the importance of the proposed
metric. We also benchmark a novel approach to generate prompts for documents,
called SFT, against other prompting techniques such as LATIN. In 15 out of 21
cases, SFT outperforms other techniques and improves the state-of-the-art,
sometimes by as much as 15 percentage points.
Sources are available at https://github.com/deepopinion/anls_star_metric
- Abstract(参考訳): 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。
これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。
しかし、ジェネレーティブ大言語モデル(gllm)の最近の進歩により、ゼロショット能力が強化され、ダウンストリームデータセットと計算コストの高い微調整の必要性がなくなるため、この分野はシフトした。
しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が、GLLM の予測には適用できないため、課題となる。
本稿では,情報抽出や分類タスクを含む幅広いタスクを評価するために,anls*と呼ばれる生成モデルのための新しいメトリクスを提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップイン置換として拡張し、以前報告されたANLSスコアと互換性がある。
また、ANLS*測定値を用いて、7つの異なるデータセットと3つの異なるGLLMの評価を行い、提案手法の重要性を示した。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
21例中15例では、SFTは他のテクニックよりも優れており、最先端の技術を改善している。
ソースはhttps://github.com/deepopinion/anls_star_metricにある。
関連論文リスト
- LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction [0.0]
本稿では,Large Language Models (LLMs) を用いた説明可能な手法によるタスク分類手法を提案する。
分類は、データを手動で探索し、理解して分類を決定する人間に類似した手法を用いて、LLMによって行われる。
システムはいくつかのテストケースで90%以上の精度を記録し、さまざまなシナリオで機械学習モデルを上回る性能と可能性を確認した。
論文 参考訳(メタデータ) (2024-09-27T17:58:50Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Interpretable Cross-Examination Technique (ICE-T): Using highly informative features to boost LLM performance [1.1961645395911131]
医学や法律など、解釈可能性が不可欠である領域では、標準モデルは「ブラックボックス」の性質のためにしばしば不足する。
ICE-Tは、LLMが複数の方向から問題にアプローチできるようにする一連のプロンプトを使用することで、これらの制限に対処する。
我々は、医療記録や法的文書など、さまざまなデータソースにまたがるICE-Tの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-08T19:20:34Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Let's Predict Who Will Move to a New Job [0.0]
機械学習を使って、誰が新しい仕事に移行するかを予測する方法について論じる。
データはMLモデルに適したフォーマットに前処理される。
モデルは、精度、リコール、F1スコア、精度などの意思決定支援メトリクスを使用して評価される。
論文 参考訳(メタデータ) (2023-09-15T11:43:09Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。