論文の概要: Legal Prompting: Teaching a Language Model to Think Like a Lawyer
- arxiv url: http://arxiv.org/abs/2212.01326v1
- Date: Fri, 2 Dec 2022 17:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:45:21.493661
- Title: Legal Prompting: Teaching a Language Model to Think Like a Lawyer
- Title(参考訳): 法的プロンプト: 言語モデルに弁護士のように考えることを教える
- Authors: Fangyi Yu, Lee Quartey, Frank Schilder
- Abstract要約: CoT(Chain-of-Thought)プロンプトは算術や常識タスクを大幅に改善することができる。
ゼロショット・ファウショット・ファウショット・ファインチューニング・アプローチをテストするため,日本バー試験に基づくCOLIEE精細化タスクを受講した。
以上の結果から, CoT のプロンプトおよび微調整は改善を示すが, 特定の法的推論手法から導かれるプロンプトにより最良の結果が得られた。
- 参考スコア(独自算出の注目度): 4.092959254671909
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models that are capable of zero or few-shot prompting
approaches have given rise to the new research area of prompt engineering.
Recent advances showed that for example Chain-of-Thought (CoT) prompts can
improve arithmetic or common sense tasks significantly. We explore how such
approaches fair with legal reasoning tasks and take the COLIEE entailment task
based on the Japanese Bar exam for testing zero-shot/few-shot and fine-tuning
approaches. Our findings show that while CoT prompting and fine-tuning with
explanations approaches show improvements, the best results are produced by
prompts that are derived from specific legal reasoning techniques such as IRAC
(Issue, Rule, Application, Conclusion). Based on our experiments we improve the
2021 best result from 0.7037 accuracy to 0.8148 accuracy and beat the 2022 best
system of 0.6789 accuracy with an accuracy of 0.7431.
- Abstract(参考訳): ゼロまたは少数ショットのプロンプトアプローチが可能な大規模言語モデルは、プロンプトエンジニアリングの新しい研究領域を生み出している。
最近の進歩は、例えば、Chain-of-Thought(CoT)プロンプトは算術や常識タスクを大幅に改善できることを示している。
このようなアプローチが法的な推論課題と公平に合致し、ゼロショット/フェウショットおよび微調整アプローチをテストするための日本の司法試験に基づいて、コリテーターの補足課題を受講する方法について検討する。
以上の結果から, IRAC (Issue, Rule, Application, Conclusion) などの特定の法的推論手法から導出されるプロンプトにより, CoT のプロンプトと微調整が改善を示す一方で, 最良の結果が得られた。
実験結果から,2021年の最高精度を0.7037から0.8148に改善し,0.6789の2022の最高精度を0.7431で上回った。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models [8.370453544530914]
大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。
近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。
本稿では,教師が指導する指導過程をエミュレートした,新しい効果的な指導インスパイアされた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:36Z) - Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy [0.0]
本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。
2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
論文 参考訳(メタデータ) (2024-09-26T14:51:40Z) - Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning [0.0]
回答の選択肢によって学習された規則性の違いは、モデルの好みを予測し、人間のテストテイク戦略を反映していることが示される。
我々は2つの新しい方法を紹介した: 思考の連鎖(CoT)と素素数CoT(Agnostically Primed CoT)による反実的プロンプト(APriCoT)である。
以上の結果から,予測バイアスの緩和には「システム-2」のようなプロセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-16T10:34:50Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation
Identification Through a Prompt-based Few-shot Approach [3.4423596432619754]
我々は、微調整言語モデル(LM)のための単純だが相補的手法のセットを活用することで、因果関係同定(CRI)タスクに対処する。
我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う微調整LMのプロンプトベースの予測手法に従う。
本手法の性能を,データセット全体で訓練されたアンサンブル手法と比較する。
論文 参考訳(メタデータ) (2022-09-08T16:03:50Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。