論文の概要: Advancing LLM Reasoning Generalists with Preference Trees
- arxiv url: http://arxiv.org/abs/2404.02078v1
- Date: Tue, 2 Apr 2024 16:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:39:47.788119
- Title: Advancing LLM Reasoning Generalists with Preference Trees
- Title(参考訳): 選好木を用いたLLM推論ジェネリストの育成
- Authors: Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
- 参考スコア(独自算出の注目度): 119.57169648859707
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Eurus, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B, Eurus models achieve state-of-the-art results among open-source models on a diverse set of benchmarks covering mathematics, code generation, and logical reasoning problems. Notably, Eurus-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks, and achieves a 33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging benchmarks, substantially outperforming existing open-source models by margins more than 13.3%. The strong performance of Eurus can be primarily attributed to UltraInteract, our newly-curated large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. UltraInteract can be used in both supervised fine-tuning and preference learning. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format, (2) multi-turn interaction trajectories with the environment and the critique, and (3) pairwise data to facilitate preference learning. UltraInteract allows us to conduct an in-depth exploration of preference learning for reasoning tasks. Our investigation reveals that some well-established preference learning algorithms may be less suitable for reasoning tasks compared to their effectiveness in general conversations. Inspired by this, we derive a novel reward modeling objective which, together with UltraInteract, leads to a strong reward model.
- Abstract(参考訳): 推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Mistral-7B と CodeLlama-70B から微調整されたEulusモデルは、数学、コード生成、論理的推論問題をカバーする様々なベンチマークで、オープンソースモデルの最先端の結果を得る。
注目すべきなのは、Eurus-70BがGPT-3.5 Turboを破り、5つのタスクをカバーする12の総合的なベンチマークを通し、LeetCodeで33.3%のパス@1の精度を達成し、2つの挑戦的なベンチマークであるTheoremQAで32.6%を達成し、既存のオープンソースモデルを実質的に13.3%以上のマージンで上回ったことである。
Eurusの強力なパフォーマンスは、主に、複雑な推論タスクのために特別に設計された、新しく修正された大規模で高品質なアライメントデータセットであるUltraInteractに起因している。
UltraInteractは教師付き微調整と選好学習の両方で利用できる。
各教示は,(1)多様な計画戦略を持つ推論チェーンと(2)環境と批判とのマルチターンインタラクショントラジェクトリと,(3)嗜好学習を容易にするペアワイズデータからなる選好木を含む。
UltraInteractは、推論タスクに対する好み学習の詳細な調査を可能にする。
本研究は, 一般的な会話において, 課題の推論に適さない選好学習アルゴリズムがいくつか存在することを明らかにした。
そこで我々は,UltraInteractとともに強力な報酬モデルをもたらす新たな報酬モデリング目標を導出した。
関連論文リスト
- LM4OPT: Unveiling the Potential of Large Language Models in Formulating
Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。
以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-02T23:32:33Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Efficient Estimation in NPIV Models: A Comparison of Various Neural
Networks-Based Estimators [1.4000007799304268]
半非パラメトリックインスツルメンタル変数(NPIV)モデルにおけるニューラルネットワーク(ANN)の計算性能について検討する。
我々は予測の効率的な推定に焦点をあて、未知の関数を近似するためにANNを使用する。
複雑な設計における有限サンプル性能を比較する大規模なモンテカルロ実験を行う。
論文 参考訳(メタデータ) (2021-10-13T15:00:33Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。