論文の概要: A Llama walks into the 'Bar': Efficient Supervised Fine-Tuning for Legal Reasoning in the Multi-state Bar Exam
- arxiv url: http://arxiv.org/abs/2504.04945v1
- Date: Mon, 07 Apr 2025 11:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:31.073933
- Title: A Llama walks into the 'Bar': Efficient Supervised Fine-Tuning for Legal Reasoning in the Multi-state Bar Exam
- Title(参考訳): Llamaが「バー」に入る:マルチステートバーエグゼムにおける法的な推論のための効率的な監督された微調整
- Authors: Rean Fernandes, André Biedenkapp, Frank Hutter, Noor Awad,
- Abstract要約: 法的な推論タスクは、ドメイン固有の知識と推論プロセスの複雑さのために、大きな言語モデル(LLM)に固有の課題を示す。
本稿では,Llama 2 7B と Llama 3 8B の小さい言語モデルが,MBE (Multi-state Bar Examination) の限られたデータセットを用いて,いかに効果的に微調整できるかを検討する。
- 参考スコア(独自算出の注目度): 38.71998082580061
- License:
- Abstract: Legal reasoning tasks present unique challenges for large language models (LLMs) due to the complexity of domain-specific knowledge and reasoning processes. This paper investigates how effectively smaller language models (Llama 2 7B and Llama 3 8B) can be fine-tuned with a limited dataset of 1,514 Multi-state Bar Examination (MBE) questions to improve legal question answering accuracy. We evaluate these models on the 2022 MBE questions licensed from JD Advising, the same dataset used in the 'GPT-4 passes the Bar exam' study. Our methodology involves collecting approximately 200 questions per legal domain across 7 domains. We distill the dataset using Llama 3 (70B) to transform explanations into a structured IRAC (Issue, Rule, Application, Conclusion) format as a guided reasoning process to see if it results in better performance over the non-distilled dataset. We compare the non-fine-tuned models against their supervised fine-tuned (SFT) counterparts, trained for different sample sizes per domain, to study the effect on accuracy and prompt adherence. We also analyse option selection biases and their mitigation following SFT. In addition, we consolidate the performance across multiple variables: prompt type (few-shot vs zero-shot), answer ordering (chosen-option first vs generated-explanation first), response format (Numbered list vs Markdown vs JSON), and different decoding temperatures. Our findings show that domain-specific SFT helps some model configurations achieve close to human baseline performance, despite limited computational resources and a relatively small dataset. We release both the gathered SFT dataset and the family of Supervised Fine-tuned (SFT) adapters optimised for MBE performance. This establishes a practical lower bound on resources needed towards achieving effective legal question answering in smaller LLMs.
- Abstract(参考訳): 法的な推論タスクは、ドメイン固有の知識と推論プロセスの複雑さのために、大きな言語モデル(LLM)に固有の課題を示す。
本稿では,Llama 2 7B と Llama 3 8B の小さい言語モデルが,法的な質問応答精度を向上させるために,制限された1,514 の多状態バー試験 (MBE) 質問を用いて,いかに効果的に微調整できるかを検討する。
JD Advisingは,「GPT-4がバー試験に合格する」研究と同じデータセットである。
当社の方法論では、7つのドメインにまたがる法律ドメインあたり約200の質問を収集する。
Llama 3 (70B) を用いてデータセットを蒸留し、構造化された IRAC (Issue, Rule, Application, Conclusion) フォーマットに変換し、非蒸留データセットよりも優れた性能が得られるかどうかを確認する。
教師付き微調整(SFT)モデルと比較し、各ドメインごとに異なるサンプルサイズでトレーニングを行い、精度への影響と適応性について検討した。
また、選択バイアスとSFT後の緩和について分析する。
プロンプト型(フェーショット対ゼロショット)、応答順序(チョーセンオプション対生成エクスラレーションファースト)、応答形式(ナンバーリスト対マークダウン対JSON)、異なる復号温度である。
この結果から,ドメイン固有のSFTは,限られた計算資源と比較的小さなデータセットにもかかわらず,モデル構成が人間のベースライン性能に近くなるのに役立つことがわかった。
収集したSFTデータセットと,MBE性能に最適化されたSFT(Supervised Fine-Tuned)アダプタのファミリーをリリースする。
これにより、より小さなLLMで効果的な法的質問応答を達成するために必要なリソースの事実上の低い境界が確立される。
関連論文リスト
- Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting [0.0]
我々は、大規模言語モデル(LLM)の様々な微調整戦略の理解を深めようとしている。
我々は,2つのデータセット(COLAとMNLI)で事前学習したモデルに対して,バニラファインチューニングやPBFT(Pattern-Based Fine-Tuning)のような最先端の手法を比較した。
以上の結果から,バニラFTやPBFTに匹敵する領域外一般化が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-21T20:08:52Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [35.36615140853107]
本研究では,多言語モデル(LLM)と人間の嗜好を整合させるためのDPOとその変種について検討する。
評価対象は、対話、推論、数学的問題解決、質問応答、真理性、MT-Bench、Big Bench、Open LLM Leaderboardを含む13のベンチマークである。
トレーニングデータのサブセットが小さい場合でも,アライメント手法がほぼ最適に近い性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。