論文の概要: LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2505.19667v1
- Date: Mon, 26 May 2025 08:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.274955
- Title: LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation
- Title(参考訳): LeCoDe: 対話型法的相談対話評価のためのベンチマークデータセット
- Authors: Weikang Yuan, Kaisong Song, Zhuoren Jiang, Junjie Cao, Yujie Zhang, Jun Lin, Kun Kuang, Ji Zhang, Xiaozhong Liu,
- Abstract要約: 法的協議は、個人の権利を保護し、司法へのアクセスを確保するために不可欠である。
現在のシステムは、現実世界のコンサルティングの対話的かつ知識集約的な性質を扱うのに不足している。
LeCoDeは3,696件の法的相談対話と110,008件の対話を含む実世界のマルチターンベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 42.52284832752026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Legal consultation is essential for safeguarding individual rights and ensuring access to justice, yet remains costly and inaccessible to many individuals due to the shortage of professionals. While recent advances in Large Language Models (LLMs) offer a promising path toward scalable, low-cost legal assistance, current systems fall short in handling the interactive and knowledge-intensive nature of real-world consultations. To address these challenges, we introduce LeCoDe, a real-world multi-turn benchmark dataset comprising 3,696 legal consultation dialogues with 110,008 dialogue turns, designed to evaluate and improve LLMs' legal consultation capability. With LeCoDe, we innovatively collect live-streamed consultations from short-video platforms, providing authentic multi-turn legal consultation dialogues. The rigorous annotation by legal experts further enhances the dataset with professional insights and expertise. Furthermore, we propose a comprehensive evaluation framework that assesses LLMs' consultation capabilities in terms of (1) clarification capability and (2) professional advice quality. This unified framework incorporates 12 metrics across two dimensions. Through extensive experiments on various general and domain-specific LLMs, our results reveal significant challenges in this task, with even state-of-the-art models like GPT-4 achieving only 39.8% recall for clarification and 59% overall score for advice quality, highlighting the complexity of professional consultation scenarios. Based on these findings, we further explore several strategies to enhance LLMs' legal consultation abilities. Our benchmark contributes to advancing research in legal domain dialogue systems, particularly in simulating more real-world user-expert interactions.
- Abstract(参考訳): 法的な協議は、個人の権利を保護し、司法へのアクセスを確保するために不可欠であるが、専門家が不足しているため、多くの個人にとって費用がかかり、アクセス不能である。
近年のLarge Language Models (LLMs) の進歩は、スケーラブルで低コストな法的援助への有望な道筋を提供する一方で、現在のシステムは、現実世界のコンサルティングの対話的かつ知識集約的な性質を扱うのに不足している。
これらの課題に対処するため,LLMの法的相談能力の評価と改善を目的とした3,696件の法的相談対話と110,008件の対話を含む実世界のマルチターン・ベンチマーク・データセットであるLeCoDeを紹介した。
LeCoDeでは,ショートビデオプラットフォームからライブストリーミングによるコンサルテーションを革新的に収集し,マルチターン法定コンサルテーション対話を実現する。
法律の専門家による厳密な注釈は、専門家の洞察と専門知識によってデータセットをさらに強化する。
さらに, (1) 明確化能力および(2) 専門的アドバイス品質の観点から, LLM の相談能力を評価する総合的な評価フレームワークを提案する。
この統合フレームワークには、2次元にわたる12のメトリクスが含まれている。
GPT-4のような最先端のモデルでさえ、解明のための39.8%のリコールとアドバイス品質の総合スコアを達成し、専門家の相談シナリオの複雑さを浮き彫りにした。
これらの知見に基づき、LLMの法的相談能力を高めるためのいくつかの戦略を探求する。
我々のベンチマークは、法律ドメイン対話システムの研究の進展、特に現実世界のユーザ-専門家間の相互作用のシミュレーションに寄与する。
関連論文リスト
- Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Optimizing Numerical Estimation and Operational Efficiency in the Legal Domain through Large Language Models [13.067312163677933]
本稿では,Large Language Modelsと特殊設計のプロンプトを統合して,法的な人工知能(LegalAI)アプリケーションにおける精度要件に対処する手法を提案する。
本手法を検証するために,精度指向の LegalAI タスクに適したキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-26T18:46:39Z) - LawLuo: A Multi-Agent Collaborative Framework for Multi-Round Chinese Legal Consultation [1.9857357818932064]
LawLuoは、マルチターン中国の法律相談のためのマルチエージェントフレームワークである。
LawLuoには、ユーザの意図を評価して弁護士エージェントを選択する受付エージェントと、ユーザと対話する弁護士エージェントと、会話記録を整理して相談報告を生成する秘書エージェントと、4つのエージェントが含まれている。
これらのエージェントの相互作用は、実際の法律事務所の運営を模倣している。
論文 参考訳(メタデータ) (2024-07-23T07:40:41Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - (A)I Am Not a Lawyer, But...: Engaging Legal Experts towards Responsible LLM Policies for Legal Advice [8.48013392781081]
大規模言語モデル(LLM)は、法的なアドバイスを含む幅広い専門分野のアドバイスをユーザに提供しやすくなっている。
ケースベース推論にインスパイアされた手法を用いて,20名の法律専門家とワークショップを行った。
以上より,無許可の法律実務,機密性,不正確な助言に対する責任など,新たな法的考慮事項が明らかになった。
論文 参考訳(メタデータ) (2024-02-02T19:35:34Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。