論文の概要: An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning
- arxiv url: http://arxiv.org/abs/2503.05439v1
- Date: Fri, 07 Mar 2025 14:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:28.706478
- Title: An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning
- Title(参考訳): ASPスキャフォールドを用いたロバスト推論のためのLLMの等角予測に関する実証的研究
- Authors: Navdeep Kaur, Lachlan McPheat, Alessandra Russo, Anthony G Cohn, Pranava Madhyastha,
- Abstract要約: 本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。
LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。
実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
- 参考スコア(独自算出の注目度): 52.29223403698673
- License:
- Abstract: In this paper, we examine the use of Conformal Language Modelling (CLM) alongside Answer Set Programming (ASP) to enhance the performance of standard open-weight LLMs on complex multi-step reasoning tasks. Using the StepGame dataset, which requires spatial reasoning, we apply CLM to generate sets of ASP programs from an LLM, providing statistical guarantees on the correctness of the outputs. Experimental results show that CLM significantly outperforms baseline models that use standard sampling methods, achieving substantial accuracy improvements across different levels of reasoning complexity. Additionally, the LLM-as-Judge metric enhances CLM's performance, especially in assessing structurally and logically correct ASP outputs. However, calibrating CLM with diverse calibration sets did not improve generalizability for tasks requiring much longer reasoning steps, indicating limitations in handling more complex tasks.
- Abstract(参考訳): 本稿では,複雑な多段階推論タスクにおける標準オープンウェイト LLM の性能向上のために,Answer Set Programming (ASP) と共に Conformal Language Modelling (CLM) を用いることを検討した。
空間的推論を必要とするStepGameデータセットを用いて、LCMからASPプログラムのセットを生成し、出力の正確性に関する統計的保証を提供する。
実験結果から, CLMは標準サンプリング手法を用いたベースラインモデルよりも有意に優れており, 推論複雑性のレベルによって精度が大幅に向上していることがわかった。
さらに、LCM-as-Judge測定は、特に構造的に、論理的に正しいASP出力を評価する際に、CLMの性能を高める。
しかし、様々なキャリブレーションセットによるCLMの校正は、より長い推論ステップを必要とするタスクの一般化性を改善しておらず、より複雑なタスクを扱う際の制限が示されていた。
関連論文リスト
- Sequential Large Language Model-Based Hyper-parameter Optimization [0.0]
本研究では,大規模言語モデル(LLM)をハイパーパラメータ最適化(HPO)に活用する革新的なフレームワークSLLMBOを紹介する。
動的探索空間適応性、拡張パラメータ空間利用、新しいLLM木構造パーゼン推定器(LLM-TPE)が組み込まれている。
この総合ベンチマークは、GPT-3.5-Turbo、GPT-4o、Claude-Sonnet-3.5、Gemini-1.5-Flashを含む複数のLCMを評価する。
論文 参考訳(メタデータ) (2024-10-27T00:50:30Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。
ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。
本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T12:32:12Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Thermometer: Towards Universal Calibration for Large Language Models [22.03852781949075]
大規模言語モデル(LLM)に適したキャリブレーション手法であるOMETERを提案する。
OMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。
計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。
論文 参考訳(メタデータ) (2024-02-20T04:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。