論文の概要: AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments
- arxiv url: http://arxiv.org/abs/2603.04718v1
- Date: Thu, 05 Mar 2026 01:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.023126
- Title: AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments
- Title(参考訳): AI支援ムートコート: 口頭弁論における特別質問のシミュレーション
- Authors: Kylie Zhang, Nimra Nadeem, Lucia Zheng, Dominik Stammbach, Peter Henderson,
- Abstract要約: そこで我々は,モットコートスタイルのトレーニングにおいて,AIモデルが正義固有の質問を効果的にシミュレートできるかどうかを検討する。
本稿では,プロンプトベースおよびエージェントによる口頭弁論シミュレータの構築と評価を行う。
シミュレーションされた質問は、人間アノテータによって現実的と見なされることが多く、基礎的な真実の実質的な法的問題への高いリコールが達成されている。
- 参考スコア(独自算出の注目度): 7.808898285349819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In oral arguments, judges probe attorneys with questions about the factual record, legal claims, and the strength of their arguments. To prepare for this questioning, both law schools and practicing attorneys rely on moot courts: practice simulations of appellate hearings. Leveraging a dataset of U.S. Supreme Court oral argument transcripts, we examine whether AI models can effectively simulate justice-specific questioning for moot court-style training. Evaluating oral argument simulation is challenging because there is no single correct question for any given turn. Instead, effective questioning should reflect a combination of desirable qualities, such as anticipating substantive legal issues, detecting logical weaknesses, and maintaining an appropriately adversarial tone. We introduce a two-layer evaluation framework that assesses both the realism and pedagogical usefulness of simulated questions using complementary proxy metrics. We construct and evaluate both prompt-based and agentic oral argument simulators. We find that simulated questions are often perceived as realistic by human annotators and achieve high recall of ground truth substantive legal issues. However, models still face substantial shortcomings, including low diversity in question types and sycophancy. Importantly, these shortcomings would remain undetected under naive evaluation approaches.
- Abstract(参考訳): 口頭弁論において、裁判官は、事実記録、法的主張、および彼らの主張の強みについて、弁護士を調査する。
この疑問に対処するために、法学校と弁護士の双方はムート・コート(英語版)に依存している: 聴聞会のシミュレーションを実践する。
合衆国最高裁判所の口頭弁論書のデータセットを利用して、AIモデルは、ムートコートスタイルのトレーニングのために、司法固有の質問を効果的にシミュレートできるかどうかを調べる。
任意のターンに対して正しい質問はひとつもないため,口頭弁論シミュレーションの評価は困難である。
代わりに、効果的な質問は、実質的な法的問題を予想し、論理的な弱点を検知し、適切な逆向きのトーンを維持するなど、望ましい品質の組み合わせを反映すべきである。
本稿では,シミュレーションされた質問の現実性と教育的有用性の両方を評価するための2層評価フレームワークを提案する。
本稿では,プロンプトベースおよびエージェントによる口頭弁論シミュレータの構築と評価を行う。
シミュレーションされた質問は、人間アノテータによって現実的と見なされることが多く、根拠となる真実の実質的な法的問題への高いリコールが達成される。
しかし、モデルは問題の種類や薬局の多様性が低いなど、深刻な欠点に直面している。
重要なことに、これらの欠点は、単純な評価アプローチの下では未検出のままである。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics [49.3262123849242]
LEGIT(LEGal Issue Trees)は,新しい大規模(24Kインスタンス)の専門家レベルの法的推論データセットである。
我々は、裁判判決を、当事者の議論と裁判所の結論の階層的な木に変換する。
論文 参考訳(メタデータ) (2025-11-30T18:32:43Z) - Not ready for the bench: LLM legal interpretation is unstable and out of step with human judgments [2.8622281002418357]
近年の学問では、法的実践者が解釈ツールキットに大きな言語モデル(LLM)を追加することが提案されている。
この研究は、法学者や連邦判事が最近実施したLSM解釈に対する実証的な議論を提供する。
我々の英語調査は、モデルが安定した解釈判断を提供していないことを示している。
論文 参考訳(メタデータ) (2025-10-29T10:21:25Z) - Do LLMs Truly Understand When a Precedent Is Overruled? [3.5784933879188796]
拡張コンテキストウィンドウを持つ大規模言語モデル(LLM)は、複雑な法的推論タスクを約束する。
本稿では,米国最高裁判所事件のオーバーラリング関係の同定における最先端のLCMの評価について述べる。
論文 参考訳(メタデータ) (2025-10-23T19:07:42Z) - Judicial Requirements for Generative AI in Legal Reasoning [0.0]
大規模言語モデル(LLM)はプロのドメインに統合されているが、法律のような高度な分野における制限は理解されていない。
本稿では、AIシステムが司法判断における信頼性の高い推論ツールとして機能しなければならない中核機能について述べる。
論文 参考訳(メタデータ) (2025-08-26T09:56:26Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning [17.829990749622496]
Reasoning Court(RC)は、ReActのような反復的推論と検索の手法を拡張した新しいフレームワークである。
RCはタスク固有の微調整なしで、最先端のショットプロンプト手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-14T00:56:08Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Legal Judgment Prediction with Multi-Stage CaseRepresentation Learning
in the Real Court Setting [25.53133777558123]
本稿では, 実地裁判所から新たなデータセットを導入し, 法的な判断を合理的に百科事典的に予測する。
大規模な民事裁判データセットを用いた広範な実験は、提案モデルが、法的判断予測のためのクレーム、事実、議論の間の相互作用をより正確に特徴付けることができることを示している。
論文 参考訳(メタデータ) (2021-07-12T04:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。