論文の概要: BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks
- arxiv url: http://arxiv.org/abs/2604.13583v1
- Date: Wed, 15 Apr 2026 07:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.439543
- Title: BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks
- Title(参考訳): BenGER: ドイツの法的タスクのエンドツーエンドベンチマークのためのコラボレーション型Webプラットフォーム
- Authors: Sebastian Nagl, Matthias Grabmair,
- Abstract要約: BenGERは、タスクの作成、協調アノテーション、LLMの実行、および語彙、意味、事実、および判断に基づくメトリクスによる評価を統合するWebプラットフォームである。
BenGERはテナント分離とロールベースのアクセス制御を備えたマルチ組織プロジェクトをサポートする。
エンドツーエンドのベンチマーク作成と分析を実演する。
- 参考スコア(独自算出の注目度): 9.91190832627458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) for legal reasoning requires workflows that span task design, expert annotation, model execution, and metric-based evaluation. In practice, these steps are split across platforms and scripts, limiting transparency, reproducibility, and participation by non-technical legal experts. We present the BenGER (Benchmark for German Law) framework, an open-source web platform that integrates task creation, collaborative annotation, configurable LLM runs, and evaluation with lexical, semantic, factual, and judge-based metrics. BenGER supports multi-organization projects with tenant isolation and role-based access control, and can optionally provide formative, reference-grounded feedback to annotators. We will demonstrate a live deployment showing end-to-end benchmark creation and analysis.
- Abstract(参考訳): 法的推論のために大きな言語モデル(LLM)を評価するには、タスク設計、エキスパートアノテーション、モデル実行、メトリックベースの評価にまたがるワークフローが必要である。
実際には、これらのステップはプラットフォームとスクリプトに分割され、透明性、再現性、非技術的法律の専門家による参加を制限する。
我々は、タスク作成、協調アノテーション、構成可能なLCMの実行、語彙、意味、事実、および判断に基づくメトリクスによる評価を統合するオープンソースのWebプラットフォームであるBenGER(Benchmark for German Law)フレームワークを提示する。
BenGERはテナントアイソレーションとロールベースのアクセス制御を備えたマルチオーガナイゼーションプロジェクトをサポートし、アノテータにフォーマット的で参照型フィードバックをオプションで提供できる。
エンドツーエンドのベンチマーク作成と分析を実演する。
関連論文リスト
- One-Eval: An Agentic System for Automated and Traceable LLM Evaluation [10.701916838477187]
One-Evalは、自然言語要求を実行可能な評価に変換するエージェント評価システムである。
One-Evalは、産業環境でより効率的で再現可能な評価をサポートする。
論文 参考訳(メタデータ) (2026-03-10T15:45:51Z) - DOCUEVAL: An LLM-based AI Engineering Tool for Building Customisable Document Evaluation Workflows [14.403156040714817]
我々は、カスタマイズ可能な評価器を構築するためのAIエンジニアリングツールであるDOCUEVALを紹介する。
DOCUEVALが評価器の工学とスケーラブルで信頼性の高い文書評価の両方を実現する方法を示す。
論文 参考訳(メタデータ) (2025-09-12T08:09:09Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning [0.0]
本稿では,PWP(Persistent Prompting)について紹介する。
本稿では,実験化学原稿の批判的分析のための概念実証PWPプロンプトを提案する。
我々は,このPWPプロンプトを,専門家レビューの体系化を目的としたメタプロンプト技術とメタ推論の反復的適用により開発する。
論文 参考訳(メタデータ) (2025-05-06T09:06:18Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。