論文の概要: Lightweight Latent Verifiers for Efficient Meta-Generation Strategies
- arxiv url: http://arxiv.org/abs/2504.16760v1
- Date: Wed, 23 Apr 2025 14:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:48:29.43346
- Title: Lightweight Latent Verifiers for Efficient Meta-Generation Strategies
- Title(参考訳): 効率的なメタジェネレーション戦略のための軽量潜時検証器
- Authors: Bartosz Piotrowski, Witold Drzewakowski, Konrad Staniszewski, Piotr Miłoś,
- Abstract要約: 検証は、ベース大言語モデル(LLM)によって生成された出力の正しさを評価する補助モデルである。
本研究では,LLMの隠れ状態から精度の高い正当性信号を確実に抽出する,新しい軽量検証手法LiLaVeを提案する。
LiLaVeの重要な利点は、従来のLCMベースの検証器が必要とする計算予算のごく一部でしか動作できないことである。
- 参考スコア(独自算出の注目度): 0.5892638927736115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verifiers are auxiliary models that assess the correctness of outputs generated by base large language models (LLMs). They play a crucial role in many strategies for solving reasoning-intensive problems with LLMs. Typically, verifiers are LLMs themselves, often as large (or larger) than the base model they support, making them computationally expensive. In this work, we introduce a novel lightweight verification approach, LiLaVe, which reliably extracts correctness signals from the hidden states of the base LLM. A key advantage of LiLaVe is its ability to operate with only a small fraction of the computational budget required by traditional LLM-based verifiers. To demonstrate its practicality, we couple LiLaVe with popular meta-generation strategies, like best-of-n or self-consistency. Moreover, we design novel LiLaVe-based approaches, like conditional self-correction or conditional majority voting, that significantly improve both accuracy and efficiency in generation tasks with smaller LLMs. Our work demonstrates the fruitfulness of extracting latent information from the hidden states of LLMs, and opens the door to scalable and resource-efficient solutions for reasoning-intensive applications.
- Abstract(参考訳): 検証は、ベース大言語モデル(LLM)によって生成された出力の正しさを評価する補助モデルである。
LLMによる推論集約的な問題を解決するための多くの戦略において、これらの戦略は重要な役割を果たす。
通常、検証者はLSM自身であり、多くの場合、彼らがサポートしているベースモデルよりも大きい(または大きい)。
本研究では,LLMの隠れ状態から精度の高い正当性信号を確実に抽出する,新しい軽量検証手法LiLaVeを提案する。
LiLaVeの重要な利点は、従来のLCMベースの検証器が必要とする計算予算のごく一部でしか動作できないことである。
その実用性を示すために、私たちはLiLaVeを、ベストプラクティスや自己整合性といった一般的なメタジェネレーション戦略と組み合わせます。
さらに,条件付き自己補正や条件付き多数決投票のような新しいLiLaVeベースのアプローチを設計し,LLMを小さくした生成タスクの精度と効率を大幅に向上する。
本研究は,LLMの隠蔽状態から潜伏情報を抽出することの有益性を実証し,推論集約型アプリケーションのためのスケーラブルで資源効率の高いソリューションへの扉を開くものである。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。