論文の概要: REL: Working out is all you need
- arxiv url: http://arxiv.org/abs/2412.04645v1
- Date: Thu, 05 Dec 2024 22:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:35.974910
- Title: REL: Working out is all you need
- Title(参考訳): REL: ワークアウトは必要なだけです。
- Authors: Toby Simonds, Jey Han Lau, Chaithanya Bandi,
- Abstract要約: 我々はOpenAIのO1モデルが、明らかに人間的な方法で問題解決にアプローチしていることを観察する。
これらの洗練された推論機能は、他の最先端の言語モデルでは特に欠落している。
- 参考スコア(独自算出の注目度): 20.65423513616306
- License:
- Abstract: Recent developments, particularly OpenAI's O1 model, have demonstrated the remarkable potential of Large Language Models (LLMs) for complex reasoning tasks. Through analysis of O1's outputs and provided sample Chain-of-Thought (CoT) demonstrations, we observe that it approaches problem-solving in a distinctly human-like manner, systematically brainstorming ideas, testing hypotheses, verifying results, and planning comprehensive solutions. These sophisticated reasoning capabilities remain notably absent in other state-of-the-art language models. In this paper, we hypothesize that this performance gap stems from the limited availability of high-quality reasoning process data in current training sets. We demonstrate that by constructing a specialized dataset focused on explicit problem-solving workflows ("worked solutions"), we can elicit substantially improved planning capabilities from existing models. Additionally, we propose the Reasoning Enhancement Loop (REL), a method for generating synthetic worked solutions.
- Abstract(参考訳): 最近の開発、特にOpenAIのO1モデルは、複雑な推論タスクにおいて、LLM(Large Language Models)の顕著な可能性を示している。
O1のアウトプットを分析してサンプルのChain-of-Thought(CoT)のデモを行い、明らかに人間的な方法で問題解決にアプローチし、アイデアを体系的にブレインストーミングし、仮説を検証し、結果を検証し、包括的ソリューションを計画することを観察した。
これらの洗練された推論機能は、他の最先端の言語モデルでは特に欠落している。
本稿では、この性能ギャップは、現在のトレーニングセットにおける高品質な推論プロセスデータの可用性の制限に起因すると仮定する。
我々は、明示的な問題解決ワークフロー("ワーキングソリューション")に焦点を当てた特別なデータセットを構築することで、既存のモデルから計画能力を大幅に改善できることを実証した。
さらに,合成作業ソリューションを生成する手法であるReasoning Enhancement Loop (REL)を提案する。
関連論文リスト
- PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。
このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。
実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-16T00:27:05Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach [0.0]
本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
論文 参考訳(メタデータ) (2022-05-10T15:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。