論文の概要: AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2603.07019v1
- Date: Sat, 07 Mar 2026 03:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.686072
- Title: AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge
- Title(参考訳): AutoChecklist: LLM-as-a-Judgeによるチェックリスト生成とスコーリングのための構成可能なパイプライン
- Authors: Karen Zhou, Chenhao Tan,
- Abstract要約: AutoChecklistは、チェックリストに基づく評価を構成可能なパイプラインに統合する、オープンソースのライブラリである。
モジュラージェネレータ$rightarrow$Refiner$rightarrow$Scorerパイプラインは、任意のジェネレータと統一スコアラを接続する。
Python API以外にも、既製の評価のためのCLIと、インタラクティブな探索のためのWebインターフェースが含まれている。
- 参考スコア(独自算出の注目度): 16.729112949512807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checklists have emerged as a popular approach for interpretable and fine-grained evaluation, particularly with LLM-as-a-Judge. Beyond evaluation, these structured criteria can serve as signals for model alignment, reinforcement learning, and self-correction. To support these use cases, we present AutoChecklist, an open-source library that unifies checklist-based evaluation into composable pipelines. At its core is a taxonomy of five checklist generation abstractions, each encoding a distinct strategy for deriving evaluation criteria. A modular Generator $\rightarrow$ Refiner $\rightarrow$ Scorer pipeline connects any generator with a unified scorer, and new configurations can be registered via prompt templates alone. The library ships with ten built-in pipelines implementing published approaches and supports multiple LLM providers (OpenAI, OpenRouter, vLLM). Beyond the Python API, the library includes a CLI for off-the-shelf evaluation and a web interface for interactive exploration. Validation experiments confirm that these checklist methods significantly align with human preferences and quality ratings, and a case study on ICLR peer review rebuttals demonstrates flexible domain adaptation. AutoChecklist is publicly available at https://github.com/ChicagoHAI/AutoChecklist.
- Abstract(参考訳): チェックリストは、特にLSM-as-a-Judgeにおいて、解釈可能できめ細かい評価のための一般的なアプローチとして現れている。
評価以外にも、これらの構造化基準はモデルアライメント、強化学習、自己補正のための信号として機能する。
これらのユースケースをサポートするために、私たちは、チェックリストに基づく評価を構成可能なパイプラインに統合するオープンソースのライブラリであるAutoChecklistを紹介します。
その中核は5つのチェックリスト生成抽象化の分類であり、それぞれが評価基準を導出するための明確な戦略を符号化している。
モジュラージェネレータ$\rightarrow$ Refiner$\rightarrow$Scorerパイプラインは、任意のジェネレータを統一スコアラーで接続し、プロンプトテンプレートだけで新しい設定を登録できる。
ライブラリには、公開アプローチを実装した10の組み込みパイプラインが付属し、複数のLLMプロバイダ(OpenAI、OpenRouter、vLLM)をサポートする。
Python API以外にも、既製の評価のためのCLIと、インタラクティブな探索のためのWebインターフェースが含まれている。
検証実験により、これらのチェックリスト手法が人間の嗜好や品質評価と著しく一致していることが確認され、ICLRピアレビューのケーススタディでは、柔軟なドメイン適応が示されている。
AutoChecklistはhttps://github.com/ChicagoHAI/AutoChecklistで公開されている。
関連論文リスト
- CLARC: C/C++ Benchmark for Robust Code Search [2.225731679677886]
現実のGitHubリポジトリから構築されたC/C++ベンチマークであるCLARCを紹介します。
Clarcには、評価用の1,245のクエリコードペアと、トレーニング用の5,472のペアが含まれている。
論文 参考訳(メタデータ) (2026-03-04T18:57:37Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - RankLLM: A Python Package for Reranking with LLMs [36.83343408896376]
本稿では,大規模言語モデル (LLM) をランク付けするオープンソースPythonパッケージである RankLLM を紹介する。
RankLLMは、ユーザビリティを改善するために、検索用のPyseriniとオプションで統合し、マルチステージパイプラインの総合的な評価を提供する。
RankGPT,LRL, RankVicuna, RankZephyr, その他の最近のモデルの結果を再現する。
論文 参考訳(メタデータ) (2025-05-25T19:29:27Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Write Your Own CodeChecker: An Automated Test-Driven Checker Development Approach with LLMs [9.551021559603349]
AutoCheckerは、ルール記述とテストスイートのみに基づいてコードチェッカーを自動記述できる革新的なアプローチである。
テスト結果は、AutoCheckerが平均テストパスレート82.28%で、すべての評価指標で他よりも大幅に優れていたことを示している。
論文 参考訳(メタデータ) (2024-11-11T08:50:24Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - A multi-language toolkit for the semi-automated checking of research outputs [0.44998333629984877]
本稿では、セキュアなデータ環境におけるプライバシー開示のための研究出力(SACRO)の半自動チェックをサポートする、フリーでオープンソースのツールキットについて述べる。
SACROは、研究者が分析を行う際に、最も実践的な原理に基づく統計開示制御(SDC)技術を適用したフレームワークである。
このツールキットは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量のPythonパッケージで構成されている。
論文 参考訳(メタデータ) (2022-12-06T12:45:15Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。