論文の概要: AI Achieves a Perfect LSAT Score
- arxiv url: http://arxiv.org/abs/2604.10034v1
- Date: Sat, 11 Apr 2026 05:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.80351
- Title: AI Achieves a Perfect LSAT Score
- Title(参考訳): AIが完全なLSATスコアを獲得
- Authors: Bonmu Ku,
- Abstract要約: 公告されたLaw School Admission Test (LSAT)における完全スコアを達成する言語モデルの最初の文書化例
実験では、プロンプトの変化、答えの選択のシャッフル、複数の応答のサンプリングは、パフォーマンスのドライバとして有意義な効果を示さない。
パイロットプロセス報酬モデル QLoRA による公式 LSAT 説明による微調整により、Best-of-5 の選択を通じてこのギャップを狭める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reports the first documented instance of a language model achieving a perfect score on an officially disclosed Law School Admission Test (LSAT). Controlled experiments on eight reasoning models show that varying the prompt, shuffling answer choices, and sampling multiple responses have no meaningful effect as drivers of performance. Ablating the thinking phase that models generate before answering, however, lowers frontier accuracy by up to 8 percentage points, predominantly in logical reasoning. Distilled models produce full thinking traces in the same format yet plateau far below frontier performance. A pilot process reward model fine-tuned via QLoRA on official LSAT explanations narrows this gap through Best-of-5 selection, with gains again predominantly in logical reasoning. The gatekeeper of elite legal education since 1948, the LSAT has not merely been passed but answered without a single error by models that reason. The upper bound of the cognitive capacities it has tested is no longer exclusive to human cognition.
- Abstract(参考訳): 本稿では,LSAT (Law School Admission Test) で完全スコアを達成した言語モデルの最初の文書化事例を報告する。
8つの推論モデルに関する制御された実験は、プロンプトの変化、答えの選択のシャッフル、複数の応答のサンプリングは、パフォーマンスの要因として有意義な効果がないことを示している。
しかし、モデルが答える前に生成する思考フェーズを非難すると、論理的推論において、フロンティアの精度は最大8ポイント低下する。
蒸留されたモデルは、同じフォーマットで完全な思考トレースを生成するが、フロンティアのパフォーマンスよりはるかに低い。
パイロットプロセス報酬モデル(英語版)は、公式のLSAT説明においてQLoRAを介して微調整され、このギャップをBest-of-5セレクションを通じて狭め、論理的推論において再び優位に立つ。
1948年以降のエリート法学教育の門番として、LSATは単に通過されただけでなく、その理由により単一の誤りなしに答えられた。
テストした認知能力の上限は、もはや人間の認知に限ったものではない。
関連論文リスト
- Trivial Vocabulary Bans Improve LLM Reasoning More Than Deep Linguistic Constraints [0.0]
前回の研究では、E-Primeは言語モデルにおいて選択的に推論を変更したと報告された。
提案したメカニズムをテストするために,アクティブなコントロールを備えたレプリケーションを設計しました。
これらの知見は不確認による発見の事例研究として提示する。
論文 参考訳(メタデータ) (2026-04-03T03:48:27Z) - How to Steal Reasoning Without Reasoning Traces [11.96740610715437]
多くの大規模言語モデル(LLM)は、応答を生成するために推論を使用するが、完全な推論トレースは明らかにしない。
対象モデルに露出した要約を入力,回答,(任意に)推論するのみを与えられたトレースインバージョンモデルを導入し,詳細な合成推論トレースを生成する。
論文 参考訳(メタデータ) (2026-03-07T15:50:44Z) - Can Consumer Chatbots Reason? A Student-Led Field Experiment Embedded in an "AI-for-All" Undergraduate Course [0.7515394929245942]
本稿では,ジョージ・メイソン大学のUNIV 182(AI4All)の中間プロジェクトとして,学生主導のフィールド実験を行った。
学生は、独自の推論タスクを設計し、現在使われている消費者チャットボット上で実行し、(i)回答の正しさと(ii)推論の有効性を評価した。
OpenAI GPT-5 と Claude 4.5 は最高平均解答精度 (86.2% と 83.8%) を獲得し、Grok 4 (82.5%) と Perplexity (73.1%) が続いた。
論文 参考訳(メタデータ) (2025-12-28T22:51:25Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - FlashThink: An Early Exit Method For Efficient Reasoning [2.1448740411847593]
大規模言語モデル(LLM)は、推論タスクにおいて素晴らしいパフォーマンスを示している。
LLMは、過度に長い推論内容を生成する傾向があり、計算オーバーヘッドが大きくなる。
我々は、モデルが推論を止め、正しい答えを提供することができる正確なタイミングを識別する検証モデルを導入する。
論文 参考訳(メタデータ) (2025-05-20T05:28:21Z) - A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文 参考訳(メタデータ) (2025-05-13T22:18:51Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。