論文の概要: ANLS* -- A Universal Document Processing Metric for Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03848v4
- Date: Tue, 16 Apr 2024 09:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:15:44.729481
- Title: ANLS* -- A Universal Document Processing Metric for Generative Large Language Models
- Title(参考訳): ANLS* -- 生成可能な大規模言語モデルのためのユニバーサルドキュメント処理メトリクス
- Authors: David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger,
- Abstract要約: 本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
- 参考スコア(独自算出の注目度): 40.94659575657584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets, 6 different GLLMs and 3 different prompting methods using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In 27 out of 35 cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $18$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric
- Abstract(参考訳): 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。
これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。
しかし、ジェネレーティブな大規模言語モデル(GLLM)の最近の進歩は、下流のデータセットや計算コストのかかる微調整の必要性をなくすため、ゼロショット能力の強化により、この分野のシフトを引き起こしている。
しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が GLLM の予測には適用できないため、課題となる。
本稿では,情報抽出や分類タスクを含む多種多様なタスクを評価するために,ANLS*と呼ばれる生成モデルのための新しい指標を提案する。
ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。
また,ANLS*メトリックを用いた7つの異なるデータセット,6つの異なるGLLM,3つの異なるプロンプト手法の評価を行い,提案手法の重要性を実証した。
また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
35件中27件では、SFTは他のテクニックよりも優れ、最先端の技術を改善している。
ソースはhttps://github.com/deepopinion/anls_star_metricにある。
関連論文リスト
- LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction [0.0]
本稿では,Large Language Models (LLMs) を用いた説明可能な手法によるタスク分類手法を提案する。
分類は、データを手動で探索し、理解して分類を決定する人間に類似した手法を用いて、LLMによって行われる。
システムはいくつかのテストケースで90%以上の精度を記録し、さまざまなシナリオで機械学習モデルを上回る性能と可能性を確認した。
論文 参考訳(メタデータ) (2024-09-27T17:58:50Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Interpretable Cross-Examination Technique (ICE-T): Using highly informative features to boost LLM performance [1.1961645395911131]
医学や法律など、解釈可能性が不可欠である領域では、標準モデルは「ブラックボックス」の性質のためにしばしば不足する。
ICE-Tは、LLMが複数の方向から問題にアプローチできるようにする一連のプロンプトを使用することで、これらの制限に対処する。
我々は、医療記録や法的文書など、さまざまなデータソースにまたがるICE-Tの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-08T19:20:34Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Let's Predict Who Will Move to a New Job [0.0]
機械学習を使って、誰が新しい仕事に移行するかを予測する方法について論じる。
データはMLモデルに適したフォーマットに前処理される。
モデルは、精度、リコール、F1スコア、精度などの意思決定支援メトリクスを使用して評価される。
論文 参考訳(メタデータ) (2023-09-15T11:43:09Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。