論文の概要: Evaluating the Role of Verifiers in Test-Time Scaling for Legal Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2510.25623v2
- Date: Thu, 30 Oct 2025 13:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 13:50:54.759359
- Title: Evaluating the Role of Verifiers in Test-Time Scaling for Legal Reasoning Tasks
- Title(参考訳): 法的推論課題における試験時間スケーリングにおける検証者の役割評価
- Authors: Davide Romano, Jonathan Schwarz, Daniele Giofré,
- Abstract要約: テストタイムスケーリング(TTS)技術は、計算量やレイテンシを犠牲にして、大規模言語モデル(LLM)の性能を向上させることができる。
提案手法は,5つのベンチマークを対象とする法定多重選択QA(MCQA)に対する検証器に基づくTS手法の実証的研究である。
- 参考スコア(独自算出の注目度): 2.1049704239329152
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-time scaling (TTS) techniques can improve the performance of large language models (LLMs) at the expense of additional computation and latency. While TTS has proven effective in formal domains such as mathematics and programming, its value in argumentative domains such as law remains underexplored. We present an empirical study of verifier-based TTS methods for legal multiple-choice QA (MCQA) across five benchmarks. Using a family of 7 reward models, we evaluate both outcome-level (Best-of-$N$) and process-level (tree search) verification under realistic low-$N$ budgets. Our analysis systematically investigates how verifier utility is affected by key properties such as domain specialization, model size, and supervision type (process-supervised PRMs vs. outcome-only ORMs), even when applied across different roles.
- Abstract(参考訳): テストタイムスケーリング(TTS)技術は、計算量やレイテンシを犠牲にして、大規模言語モデル(LLM)の性能を向上させることができる。
TTSは数学やプログラミングのような形式的な領域で有効であることが証明されているが、法則のような議論的な領域におけるその価値は未定のままである。
提案手法は,5つのベンチマークを対象とする法定多重選択QA(MCQA)に対する検証器に基づくTS手法の実証的研究である。
7種類の報酬モデルを用いて、現実的な低N$予算下で結果レベル(Best-of-N$)とプロセスレベル(tree search)の検証を評価する。
本稿では,検証ユーティリティがドメインの特殊化,モデルサイズ,管理タイプ(プロセス管理型PRMと結果のみのORM)といった重要な特性にどのように影響するかを,異なる役割に適用しても系統的に検討する。
関連論文リスト
- Test-Time Scaling of Reasoning Models for Machine Translation [16.317481079574065]
テスト時間スケーリング(TTS)は、数学やコーディングといった様々なタスクにおける推論モデル(RM)の性能を向上させる。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-10-07T21:15:18Z) - Trust but Verify! A Survey on Verification Design for Test-time Scaling [8.428618801719198]
テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。
検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。
検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
論文 参考訳(メタデータ) (2025-08-20T22:27:21Z) - T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models [9.674458633565111]
テスト時間スケーリングにおいて,小言語モデル(sLM)がアウトプットを確実に自己検証できるかどうかを検討する。
本稿では,コードインタプリタなどの外部ツールに多量の検証ステップを委譲するツール統合自己検証(T1)を提案する。
理論解析により,ツール統合は記憶の要求を減らし,テストタイムのスケーリング性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-07T04:01:17Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。