論文の概要: Learning to Correct for QA Reasoning with Black-box LLMs
- arxiv url: http://arxiv.org/abs/2406.18695v2
- Date: Tue, 08 Oct 2024 06:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:30.631096
- Title: Learning to Correct for QA Reasoning with Black-box LLMs
- Title(参考訳): ブラックボックスLLMによるQA推論の精度向上
- Authors: Jaehyung Kim, Dongyoung Kim, Yiming Yang,
- Abstract要約: 我々は,機械学習におけるオープンチャレンジとして,COBB (Correct for improve QA reasoning of Black-Box LLMs)を提案する。
トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。
実験の結果,CoBBは様々なQAベンチマークにおいて推理精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 37.13135300208977
- License:
- Abstract: An open challenge in recent machine learning is about how to improve the reasoning capability of large language models (LLMs) in a black-box setting, i.e., without access to detailed information such as output token probabilities. Existing approaches either rely on accessibility (which is often unrealistic) or involve significantly increased train- and inference-time costs. This paper addresses those limitations or shortcomings by proposing a novel approach, namely CoBB (Correct for improving QA reasoning of Black-Box LLMs). It uses a trained adaptation model to perform a seq2seq mapping from the often-imperfect reasonings of the original black-box LLM to the correct or improved reasonings. Specifically, the adaptation model is initialized with a relatively small open-source LLM and adapted over a collection of sub-sampled training pairs. To select the representative pairs of correct and incorrect reasonings, we formulated the dataset construction as an optimization problem that minimizes the statistical divergence between the sampled subset and the entire collection, and solved it via a genetic algorithm. We then train the adaptation model over the sampled pairs by contrasting the likelihoods of correct and incorrect reasonings. Our experimental results demonstrate that CoBB significantly improves reasoning accuracy across various QA benchmarks, compared to the best-performing adaptation baselines.
- Abstract(参考訳): 最近の機械学習におけるオープンな課題は、大規模な言語モデル(LLM)のブラックボックス設定における推論能力、すなわち出力トークン確率のような詳細な情報にアクセスすることなく改善する方法である。
既存のアプローチはアクセシビリティ(多くの場合非現実的)に依存しているか、列車と推論時間のコストが大幅に増加するかのどちらかである。
本稿は,COBB (Correct for improve QA reasoning of Black-Box LLMs) という新しいアプローチを提案することによって,これらの制限や欠点に対処する。
トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。
具体的には、適応モデルは比較的小さなオープンソース LLM で初期化され、サブサンプルのトレーニングペアのコレクションに適応する。
正誤推論の代表的なペアを選択するために、サンプルサブセットとコレクション全体の統計的ばらつきを最小限に抑える最適化問題としてデータセット構築を定式化し、遺伝的アルゴリズムを用いて解決した。
次に、正しい推論と誤った推論の可能性を対比して、サンプルペアよりも適応モデルを訓練する。
実験の結果, CoBB は, 最適適応ベースラインと比較して, 各種QA ベンチマークにおける推論精度を著しく向上することが示された。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文 参考訳(メタデータ) (2024-12-11T10:56:47Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension [9.67774998354062]
これまでの研究は主に、Chain-of-Thought(CoT)やデータ拡張による論理的推論能力の向上に重点を置いてきた。
本稿では,CoTの論理式を生成するためのPODA(Premise-Oriented Data Augmentation)フレームワークを提案する。
また,本論文では,原案と反実例の推論経路を比較検討する新たな思考経路コントラスト学習手法についても紹介する。
論文 参考訳(メタデータ) (2024-09-22T15:44:43Z) - COBias and Debias: Balancing Class Accuracies for Language Models in Inference Time via Nonlinear Integer Programming [12.287692969438169]
本稿では,言語モデルにおける基本的な推論時間問題について考察する。
問題の根底にあるものは、いくつかのクラスを過大予測し、他のクラスを過小予測する傾向があることです。
推論時間最適化によって効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:30:33Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。