論文の概要: Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring
- arxiv url: http://arxiv.org/abs/2406.19949v1
- Date: Fri, 28 Jun 2024 14:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:40:26.068594
- Title: Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring
- Title(参考訳): 理科問合せにおけるリズム生成のためのソートツリーの選好最適化によるLLMの校正
- Authors: Jiazheng Li, Hainiu Xu, Zhaoyue Sun, Yuxiang Zhou, David West, Cesare Aloisi, Yulan He,
- Abstract要約: より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
- 参考スコア(独自算出の注目度): 16.38771834692938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating rationales that justify scoring decisions has been a promising way to facilitate explainability in automated scoring systems. However, existing methods do not match the accuracy of classifier-based methods. Plus, the generated rationales often contain hallucinated information. To address these issues, we propose a novel framework capable of generating more faithful rationales and, more importantly, matching performance with classifier-based black-box scoring systems. We first mimic the human assessment process by querying Large Language Models (LLMs) to generate a thought tree. We then summarise intermediate assessment decisions from each thought tree path for creating synthetic rationale data and rationale preference data. Finally, we utilise the generated synthetic data to calibrate LLMs through a two-step training process: supervised fine-tuning and preference optimization. Extensive experimental results demonstrate that our framework achieves a 38% assessment performance improvement in the QWK score compared to prior work while producing higher-quality rationales, as recognised by human evaluators and LLMs. Our work sheds light on the effectiveness of performing preference optimization using synthetic preference data obtained from thought tree paths.
- Abstract(参考訳): スコアリング決定を正当化する合理性を生成することは、自動スコアリングシステムにおける説明可能性を促進するための有望な方法である。
しかし,既存の手法は分類器に基づく手法の精度に合わない。
さらに、生成された理性は、しばしば幻覚的な情報を含む。
これらの問題に対処するために、より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、分類器ベースのブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理化データと合理化選好データを作成する。
最後に、生成した合成データを利用して2段階のトレーニングプロセス、すなわち教師付き微調整と選好最適化を行ない、LCMを校正する。
以上の結果から,本フレームワークは従来よりもQWKスコアが38%向上し,高い品質の有理性が得られることが示された。
本研究は,思考木経路から得られた選好データを用いた選好最適化の有効性に光を当てる。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。
この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。
我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:27:52Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
大規模言語モデル(LLM)と決定木推論(OCTree)に基づく新しいフレームワークを提案する。
私たちのキーとなるアイデアは、LLMの推論機能を活用して、手動で検索スペースを指定せずに優れた特徴生成ルールを見つけることです。
実験の結果、この単純なフレームワークは様々な予測モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Optimal Decision Trees for Nonlinear Metrics [42.18286681448184]
本稿では,非線形メトリクスに対して最適な木を生成するための新しいアルゴリズムを提案する。
我々の知る限りでは、これは非線形メトリクスに対して証明可能な最適決定木を計算するための最初の方法である。
当社のアプローチは、線形メトリクスの最適化と比較した場合、トレードオフにつながります。
論文 参考訳(メタデータ) (2020-09-15T08:30:56Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。