論文の概要: Large Language Model Prompt Chaining for Long Legal Document
Classification
- arxiv url: http://arxiv.org/abs/2308.04138v1
- Date: Tue, 8 Aug 2023 08:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:24:49.463299
- Title: Large Language Model Prompt Chaining for Long Legal Document
Classification
- Title(参考訳): 長期法的文書分類のための大規模言語モデルプロンプトチェイン
- Authors: Dietrich Trautmann
- Abstract要約: チェイン(Chaining)は、複雑なタスクを小さな管理可能なコンポーネントに分解する戦略である。
即時連鎖により、ゼロショット以上の性能を向上できるだけでなく、より大きなモデルによって達成されたマイクロF1スコアを超越できることを実証する。
- 参考スコア(独自算出の注目度): 2.3148470932285665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting is used to guide or steer a language model in generating an
appropriate response that is consistent with the desired outcome. Chaining is a
strategy used to decompose complex tasks into smaller, manageable components.
In this study, we utilize prompt chaining for extensive legal document
classification tasks, which present difficulties due to their intricate
domain-specific language and considerable length. Our approach begins with the
creation of a concise summary of the original document, followed by a semantic
search for related exemplar texts and their corresponding annotations from a
training corpus. Finally, we prompt for a label - based on the task - to
assign, by leveraging the in-context learning from the few-shot prompt. We
demonstrate that through prompt chaining, we can not only enhance the
performance over zero-shot, but also surpass the micro-F1 score achieved by
larger models, such as ChatGPT zero-shot, using smaller models.
- Abstract(参考訳): プロンプトは、望ましい結果に合致した適切な応答を生成する際に、言語モデルを誘導または制御するために使用される。
チェイン(Chaining)は、複雑なタスクを小さな管理可能なコンポーネントに分解する戦略である。
本研究は,広範な法律文書分類タスクにおいて,プロンプト・チェーンを活用し,その複雑なドメイン固有言語と相当な長さの制約を呈する。
私たちのアプローチは、元の文書の簡潔な要約の作成から始まり、関連する例文とその対応するアノテーションをトレーニングコーパスから意味的に検索する。
最後に、限定的なプロンプトからコンテキスト内学習を活用することで、タスクに基づいたラベルを割り当てるように促します。
即時連鎖により、ゼロショット以上の性能を向上できるだけでなく、より小さなモデルを用いてChatGPTゼロショットのような大型モデルによって達成されるマイクロF1スコアを超越できることを実証する。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - OLaLa: Ontology Matching with Large Language Models [2.211868306499727]
オントロジーマッチング(Ontology Matching)は、自然言語の情報が処理すべき最も重要な信号の1つである、困難なタスクである。
大規模言語モデルの台頭により、この知識をマッチングパイプラインにより良い方法で組み込むことが可能である。
少数の例とよく設計されたプロンプトで、教師付きマッチングシステムに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-11-07T09:34:20Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - LabelPrompt: Effective Prompt-based Learning for Relation Classification [31.291466190218912]
本稿では,関係分類タスクのための新しいプロンプト型学習手法であるLabelPromptを提案する。
GIVE MODEL CHOICES!'の直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなす。
そして、予測関係と与えられた実体との整合性を緩和するために、コントラスト学習を伴うエンティティ認識モジュールを実装した。
論文 参考訳(メタデータ) (2023-02-16T04:06:25Z) - Generative Prompt Tuning for Relation Classification [21.027631157115135]
本稿では,関係分類を埋め込み問題として再構成する新しい生成的プロンプトチューニング手法を提案する。
さらに,エンティティ誘導型復号化と識別的関係スコアリングを設計し,推論中の関係を効果的かつ効率的に生成・調整する。
論文 参考訳(メタデータ) (2022-10-22T12:40:23Z) - Enhance Long Text Understanding via Distilled Gist Detector from
Abstractive Summarization [7.851265919027389]
我々は、長文理解において、ジスト関連かつ無関係な情報を解き放つ方法の問題点を考察する。
文書分類, 遠隔教師付きオープンドメイン質問応答 (DS-QA) および非並列テキストスタイルの転送実験により, 本手法がベースラインモデルの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2021-10-10T09:21:24Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Building Legal Case Retrieval Systems with Lexical Matching and
Summarization using A Pre-Trained Phrase Scoring Model [1.9275428660922076]
本研究は,2019年法律情報抽出・販売コンペティションの判例検索課題に対処する手法を提案する。
我々のアプローチは、要約が検索に重要であるという考え方に基づいている。
コンペティションのベンチマークにおけるタスクの最先端の結果を達成しました。
論文 参考訳(メタデータ) (2020-09-29T15:10:59Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。