論文の概要: Training-free LLM Verification via Recycling Few-shot Examples
- arxiv url: http://arxiv.org/abs/2506.17251v1
- Date: Sun, 08 Jun 2025 10:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.826503
- Title: Training-free LLM Verification via Recycling Few-shot Examples
- Title(参考訳): リサイクル事例による無トレーニングLDM検証
- Authors: Dongseok Lee, Jimyung Hong, Dongyoung Kim, Jaehyung Kim,
- Abstract要約: LLM出力の検証にFew-shot例をリサイクルする新しいフレームワークを提案する(Referi)。
私たちのキーとなるアイデアは、与えられた少数ショットの例を付加して、ターゲットクエリの候補出力を評価することです。
Referiはベイズのルールからモチベーションを得た2つの異なるスコアを組み合わせて生成した出力を評価し、その後、自信を持って決定され、文脈的に一貫性のある候補を選択する。
- 参考スコア(独自算出の注目度): 8.919343613551183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although LLMs have achieved remarkable performance, the inherent stochasticity of their reasoning process and varying conclusions present significant challenges. Majority voting or Best-of-N with external verification models has been explored to find the most promising solution among multiple LLM outputs. However, these approaches have certain limitations, such as limited applicability or the cost of an additional training step. To address this problem, we propose a novel and effective framework that Recycles Few-shot examples to verify LLM outputs (Referi). Our key idea is to additionally utilize the given few-shot examples to evaluate the candidate outputs of the target query, not only using them to generate outputs as the conventional few-shot prompting setup. Specifically, Referi evaluates the generated outputs by combining two different scores, designed motivated from Bayes' rule, and subsequently selects the candidate that is both confidently determined and contextually coherent through a few additional LLM inferences. Experiments with three different LLMs and across seven diverse tasks demonstrate that our framework significantly improves the accuracy of LLMs-achieving an average gain of 4.8%-through effective response selection, without additional training.
- Abstract(参考訳): LLMは目覚ましい性能を達成しているが、それらの推論過程と様々な結論の固有の確率性は重要な課題である。
外部検証モデルを用いた多数投票やBest-of-Nは、複数のLLM出力の中で最も有望な解を見つけるために研究されている。
しかしながら、これらのアプローチには、適用可能性の制限や追加のトレーニングステップのコストなど、一定の制限がある。
この問題に対処するために,LLM出力を検証するためにFew-shot例をリサイクルする,新しい効果的なフレームワークを提案する(Referi)。
我々のキーとなるアイデアは、与えられた少数ショット例を、従来の少数ショットプロンプト設定として出力を生成するだけでなく、ターゲットクエリの候補出力を評価することです。
特に、Referiはベイズのルールから動機づけられた2つの異なるスコアを組み合わせて生成した出力を評価し、その後、いくつかのLLM推論を通じて自信を持って決定され、文脈的に一貫性のある候補を選択する。
3つの異なるLLMと7つの多様なタスクによる実験により、我々のフレームワークはLLMの精度を大幅に向上し、追加のトレーニングなしで平均4.8%の有効応答選択を達成できることを示した。
関連論文リスト
- MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning [53.02571749383208]
In-Context Learning (ICL)は、大規模言語モデル(LLM)に複数のインプット・アウトプット・サンプルを組み込むことで、多様なタスクに対処する権限を与える。
Many-Shot Adaptive Pseudo-LabEling (MAPLE)は、ラベル情報の欠如を補うために擬似ラベル付きサンプルを利用する新しいインフルエンスベースのマルチショットICLフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T04:54:27Z) - LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。
本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。
コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-02-14T17:12:20Z) - OptiSeq: Ordering Examples On-The-Fly for In-Context Learning [8.603219414567084]
OptiSeqは、最適なサンプル順序を効率的に決定する、純粋に推論時間、データセットなしの最適化手法である。
OptiSeqは複数のタスクで5.5~10.5ポイントの精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-25T02:24:00Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。
ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。
本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T12:32:12Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。