論文の概要: OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.09671v1
- Date: Sat, 12 Oct 2024 23:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:46:35.278420
- Title: OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
- Title(参考訳): OpenR: 大規模言語モデルによる高度な推論のためのオープンソースフレームワーク
- Authors: Jun Wang, Meng Fang, Ziyu Wan, Muning Wen, Jiachen Zhu, Anjie Liu, Ziqin Gong, Yan Song, Lei Chen, Lionel M. Ni, Linyi Yang, Ying Wen, Weinan Zhang,
- Abstract要約: 大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
- 参考スコア(独自算出の注目度): 61.14336781917986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we introduce OpenR, an open-source framework designed to integrate key components for enhancing the reasoning capabilities of large language models (LLMs). OpenR unifies data acquisition, reinforcement learning training (both online and offline), and non-autoregressive decoding into a cohesive software platform. Our goal is to establish an open-source platform and community to accelerate the development of LLM reasoning. Inspired by the success of OpenAI's o1 model, which demonstrated improved reasoning abilities through step-by-step reasoning and reinforcement learning, OpenR integrates test-time compute, reinforcement learning, and process supervision to improve reasoning in LLMs. Our work is the first to provide an open-source framework that explores the core techniques of OpenAI's o1 model with reinforcement learning, achieving advanced reasoning capabilities beyond traditional autoregressive methods. We demonstrate the efficacy of OpenR by evaluating it on the MATH dataset, utilising publicly available data and search methods. Our initial experiments confirm substantial gains, with relative improvements in reasoning and performance driven by test-time computation and reinforcement learning through process reward models. The OpenR framework, including code, models, and datasets, is accessible at https://openreasoner.github.io.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の推論能力を高めるために,主要なコンポーネントを統合するために設計されたオープンソースフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング(オンラインとオフラインの両方)、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
我々のゴールは、LCM推論の開発を加速するオープンソースプラットフォームとコミュニティを確立することです。
OpenAIのo1モデルの成功に触発され、ステップバイステップの推論と強化学習によって推論能力が改善された。
当社の作業は,OpenAIのo1モデルのコアテクニックを強化学習で探求し,従来の自己回帰的手法を越えた高度な推論能力を実現する,オープンソースフレームワークを初めて提供するものです。
我々は,OpenRの有効性をMATHデータセット上で評価し,公開データと検索手法を用いて実証する。
テスト時間計算とプロセス報酬モデルによる強化学習により推理と性能が相対的に向上した。
コード、モデル、データセットを含むOpenRフレームワークはhttps://openreasoner.github.io.comでアクセスできる。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models [23.68266151581951]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の実際の精度を高めることが示されている。
既存の手法は、抽出された証拠を効果的に活用する際の限定的な推論能力に悩まされることが多い。
我々は,オープンソースLLMを用いたRAGにおける推論能力の向上を目的とした,新しいフレームワークであるOpen-RAGを紹介する。
論文 参考訳(メタデータ) (2024-10-02T17:37:18Z) - A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Intelligence Analysis of Language Models [0.0]
本研究では,Large Language Models (LLMs) の Abstraction and Reasoning Corpus (ARC) データセットに対する有効性を検証する。
このデータセットは、抽象推論能力をテストするための代表的なベンチマークとして機能する。
モデル性能向上におけるChain-of-Thought(CoT)手法の適用性を検討した。
論文 参考訳(メタデータ) (2024-07-20T13:48:16Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - MORE: A Metric Learning Based Framework for Open-domain Relation
Extraction [25.149590577718996]
オープンリレーション抽出(OpenRE)は、オープンドメインコーパスからリレーションスキームを抽出するタスクである。
我々はMORE(Metric Learning-based Open Relation extract)という新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-01T07:51:20Z) - OpenFL: An open-source framework for Federated Learning [41.03632020180591]
Federated Learning(FL)は、組織が機密データを共有せずに機械学習(ML)プロジェクトに協力できる計算パラダイムである。
OpenFLは、FLのデータプライベート共同学習パラダイムを使用してMLアルゴリズムを訓練するためのオープンソースのフレームワークです。
論文 参考訳(メタデータ) (2021-05-13T16:40:19Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。