論文の概要: Classifying complex documents: comparing bespoke solutions to large
language models
- arxiv url: http://arxiv.org/abs/2312.07182v1
- Date: Tue, 12 Dec 2023 11:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:27:44.395597
- Title: Classifying complex documents: comparing bespoke solutions to large
language models
- Title(参考訳): 複雑な文書の分類:大規模言語モデルとの比較
- Authors: Glen Hopkins, Kristjan Kalm
- Abstract要約: 我々の目的は、12の州と267の郡から9つのサブカテゴリを使って3万件の公庁舎の記録を2つの異なるレベルに分類することである。
具体的には、細調整された大規模言語モデル(LLM)が、カスタムトレーニングモデルの精度を達成できるかどうかを検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Here we search for the best automated classification approach for a set of
complex legal documents. Our classification task is not trivial: our aim is to
classify ca 30,000 public courthouse records from 12 states and 267 counties at
two different levels using nine sub-categories. Specifically, we investigated
whether a fine-tuned large language model (LLM) can achieve the accuracy of a
bespoke custom-trained model, and what is the amount of fine-tuning necessary.
- Abstract(参考訳): ここでは、複雑な法的文書の集合に対する最良の自動分類手法を探索する。
我々の目的は、12の州と267の郡から3万件の公庁舎の記録を9つのサブカテゴリを使って2つの異なるレベルで分類することである。
具体的には,微調整された大言語モデル (llm) が独自に学習したモデルの精度を達成できるか,また,必要な微調整量について検討した。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Exploring Large Language Models and Hierarchical Frameworks for
Classification of Large Unstructured Legal Documents [0.6349503549199403]
我々は,大規模法律文書の分類と,深層学習に基づく階層的枠組みによる構造情報の欠如について検討する。
具体的には、文書を分割して、カスタムの微調整された大規模言語モデルの最後の4層から埋め込みを抽出する。
提案手法は,従来の最先端手法に比べて平均2ポイント程度の性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T16:24:08Z) - BYOC: Personalized Few-Shot Classification with Co-Authored Class
Descriptions [2.076173115539025]
LLMを用いた少数ショットテキスト分類のための新しい手法を提案する。
わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。
例、質問、回答は、分類プロンプトを形成するために要約される。
論文 参考訳(メタデータ) (2023-10-09T19:37:38Z) - Prompt Algebra for Task Composition [131.97623832435812]
素早いチューニングを伴うビジュアル言語モデルを基本分類器として検討する。
合成分類器の性能向上のための制約付きプロンプトチューニングを提案する。
UTZapposでは、最高のベースモデルに対する分類精度を平均8.45%向上させる。
論文 参考訳(メタデータ) (2023-06-01T03:20:54Z) - Classification of US Supreme Court Cases using BERT-Based Techniques [0.0]
我々は、米国最高裁判所判決または最高裁判所データベース(SCDB)のためのBERTに基づくいくつかの分類手法の実験を行った。
次に、長いドキュメントのSOTAモデルと結果を比較します。
その結果,15のカテゴリで80%,細粒度279のカテゴリで60%の精度が得られた。
論文 参考訳(メタデータ) (2023-04-17T22:53:54Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。