論文の概要: Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds
- arxiv url: http://arxiv.org/abs/2605.18827v1
- Date: Tue, 12 May 2026 20:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.364868
- Title: Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds
- Title(参考訳): 小言語モデルのためのコードガイド型推論:実行可能MCQAスキャッホールドの評価
- Authors: Prateek Biswas, Dhaval Patel, Vedant Khandelwal, Shuxin Lin, Amit Sheth,
- Abstract要約: 評価プロトコルと生成プログラムリソースであるCode-Guided Reasoning (CGR)を紹介する。
CGRは6つのコンポーネントを標準化している: 正規化されたアイテムインターフェース、直接解決プロンプト、ジェネレータプロンプト、Pythonの足場、ソルバコールと抽出ヘルパー、3チャンネルの結果レコード。
20,498行のMCQAバンドルと6つのメタデータ登録ソルバモデルからの保存結果行に対して、観測された非ゼロベースライン分割は66.21%のマクロアシスト精度と38.11%の直接精度を示している。
- 参考スコア(独自算出の注目度): 14.64394876057282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice QA benchmarks usually evaluate small language models (SLMs) as direct answerers, but deployed language-model systems increasingly rely on external scaffolds such as tools, code, and repeated model calls. We introduce Code-Guided Reasoning (CGR), an evaluation protocol and generated-program resource for measuring when executable reasoning scaffolds improve SLM performance on MCQA tasks. CGR standardizes six components: a normalized item interface, a direct solver prompt, a generator prompt, a Python scaffold, solver-call and extraction helpers, and a three-channel result record. On 20,498 retained result rows from a locally prepared MCQA bundle and six metadata-registered solver models, the observed non-zero-baseline partition shows 66.21% macro assisted accuracy versus 38.11% direct accuracy, a +28.10 percentage-point difference with a pair-bootstrap interval of [20.32, 36.43]. Under a stricter Ab > 30% direct-signal gate, the macro difference is +14.11 points. These estimates are descriptive. Assisted inference uses a larger solver-call budget, answer extraction is brittle, Time-MQA contains the observed regressions, and some generated programs violate the no-hard-coding instruction. CGR provides the trace package needed to interpret these results, including direct, assisted, and generator-side answers, partition definitions, generated programs, response metadata, and audits.
- Abstract(参考訳): マルチチョイスQAベンチマークは通常、小さな言語モデル(SLM)を直接応答器として評価するが、デプロイされた言語モデルシステムは、ツールやコード、繰り返しモデル呼び出しといった外部の足場にますます依存している。
本稿では,MCQAタスクにおけるSLM性能を向上させるための評価プロトコルであるCode-Guided Reasoning (CGR)を紹介した。
CGRは6つのコンポーネントを標準化している: 正規化されたアイテムインターフェース、直接解決プロンプト、ジェネレータプロンプト、Pythonの足場、ソルバコールと抽出ヘルパー、3チャンネルの結果レコード。
20,498個のMCQAバンドルと6つのメタデータ登録ソルバモデルからの保存された結果列では、観測された非ゼロベースライン分割は66.21%のマクロアシスト精度と38.11%の直接精度、対のブートストラップ間隔が[20.32, 36.43]の+28.10のパーセンテージ差を示す。
より厳密なAb > 30%の直接信号ゲートの下では、マクロ差は+14.11点である。
これらの見積もりは説明的です。
Assisted Inference はより大きいソルバコール予算を使用し、応答抽出は不安定であり、Time-MQA は観測された回帰を含み、生成したプログラムはNo-hard-coding 命令に違反している。
CGRは、直接、補助、ジェネレータ側の回答、パーティション定義、生成されたプログラム、レスポンスメタデータ、監査など、これらの結果を解釈するのに必要なトレースパッケージを提供する。
関連論文リスト
- Spatial Atlas: Compute-Grounded Reasoning for Spatial-Aware Research Agent Benchmarks [1.5229257192293202]
空間認識型研究エージェントのための計算基底推論(CGR)を導入する。
CGRは空間認識型研究エージェントの設計パラダイムであり、全ての答え可能なサブプロブレムは決定論的計算によって解決される。
我々は,CGRが解釈可能性を維持しながら競争精度を向上することを示した。
論文 参考訳(メタデータ) (2026-04-13T22:22:07Z) - DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文 参考訳(メタデータ) (2025-10-12T03:04:24Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Enhancing IR-based Fault Localization using Large Language Models [5.032687557488094]
本稿では、プログラミングエンティティ、スタックトレース、自然言語テキストに基づいてバグレポートを分類することで、障害局所化(IRFL)を強化する。
クエリの不正確性に対処するため,LLmiRQ+と呼ばれるユーザと対話型クエリ再構成手法を導入する。
6,340件のバグ報告を含む46のプロジェクトの評価では、MRRは0.6770件、MAPは0.5118件であり、7つの最先端IRFL技術を上回っている。
論文 参考訳(メタデータ) (2024-12-04T22:47:51Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。