論文の概要: Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
- arxiv url: http://arxiv.org/abs/2411.14405v1
- Date: Thu, 21 Nov 2024 18:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:33.148750
- Title: Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
- Title(参考訳): Marco-o1: オープンエンドソリューションのためのオープン推論モデルを目指して
- Authors: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang,
- Abstract要約: Marco-o1は数学、物理学、コーディングなどの標準解を持つ分野に焦点を当てている。
o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか?
Marco-o1は、Chain-of-Thoughtファインチューニング、Monte Carlo Tree Search (MCTS)、リフレクションメカニズム、革新的な推論戦略によって実現されている。
- 参考スコア(独自算出の注目度): 40.16421073295963
- License:
- Abstract: Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.
- Abstract(参考訳): 現在、OpenAI o1は大きな推論モデル(LRM)の研究への関心の高まりを引き起こしている。
この運動量に基づいてMarco-o1は、数学、物理学、コーディングなど、強化学習(RL)に適した標準的な答えを持つ分野に焦点を当てているだけでなく、オープンな解決にもより重点を置いている。
o1モデルは、明確な標準が欠如し、報酬が定量化が難しい広い領域に効果的に一般化しますか?
Marco-o1は、Chain-of-Thought(CoT)ファインチューニング、Monte Carlo Tree Search(MCTS)、リフレクションメカニズム、革新的な推論戦略を駆使して、複雑な現実世界の問題解決タスクに最適化されている。
関連論文リスト
- Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 [15.863162558281616]
我々は,2つのLEM(o1-previewとo1-mini)の計画能力について,計画とスケジューリングのベンチマークで評価した。
LRM-Moduloシステムでは,o1モデルを外部検証器と組み合わせることで,システム出力の正しさが保証される。
論文 参考訳(メタデータ) (2024-10-03T03:04:36Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Every Parameter Matters: Ensuring the Convergence of Federated Learning
with Dynamic Heterogeneous Models Reduction [22.567754688492414]
クロスデバイス・フェデレーション・ラーニング(FL)は、ユニークなコントリビューションを行う可能性のあるローエンドのクライアントが、リソースのボトルネックのため、大規模なモデルのトレーニングから除外されるという、大きな課題に直面します。
近年,グローバルモデルから縮小サイズのモデルを抽出し,それに応じてローカルクライアントに適用することによって,モデル不均一FLに焦点を当てている。
本稿では,オンラインモデル抽出を用いた不均一FLアルゴリズムの一元化フレームワークを提案し,一般収束解析を初めて提供する。
論文 参考訳(メタデータ) (2023-10-12T19:07:58Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Reinforcement Learning for Flexibility Design Problems [77.37213643948108]
フレキシビリティ設計問題に対する強化学習フレームワークを開発した。
実験の結果、RL法は古典的手法よりも優れた解を常に見出すことがわかった。
論文 参考訳(メタデータ) (2021-01-02T02:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。