論文の概要: Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1
- arxiv url: http://arxiv.org/abs/2410.02162v1
- Date: Thu, 3 Oct 2024 03:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:25:54.871062
- Title: Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1
- Title(参考訳): 麦畑におけるプランニング: LRM o1の計画とスケジューリング能力の評価と改善
- Authors: Karthik Valmeekam, Kaya Stechly, Atharva Gundawar, Subbarao Kambhampati,
- Abstract要約: 我々は,2つのLEM(o1-previewとo1-mini)の計画能力について,計画とスケジューリングのベンチマークで評価した。
LRM-Moduloシステムでは,o1モデルを外部検証器と組み合わせることで,システム出力の正しさが保証される。
- 参考スコア(独自算出の注目度): 15.863162558281616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities, but -- despite the slew of new private and open source LLMs since GPT3 -- progress has remained slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs -- making it a new kind of model: a Large Reasoning Model (LRM). In this paper, we evaluate the planning capabilities of two LRMs (o1-preview and o1-mini) on both planning and scheduling benchmarks. We see that while o1 does seem to offer significant improvements over autoregressive LLMs, this comes at a steep inference cost, while still failing to provide any guarantees over what it generates. We also show that combining o1 models with external verifiers -- in a so-called LRM-Modulo system -- guarantees the correctness of the combined system's output while further improving performance.
- Abstract(参考訳): 望ましい状況を達成するための行動コースを計画する能力は、長年、知的エージェントのコアコンピテンスと考えられてきた。
大きな言語モデル(LLMs)の出現により、そのような計画能力を持っているかどうかという問題にかなりの関心が寄せられているが、GPT3以降、新しいプライベートおよびオープンソース LLM が無数にあるにもかかわらず、進歩は遅いままである。
OpenAIによると、最近のo1(Strawberry)モデルは、自動回帰LPMの通常の制限から逃れるために特別に構築され、訓練されている。
本稿では,2つの LRM (o1-preview と o1-mini) の計画性能を,計画とスケジューリングのベンチマークで評価する。
o1 は自己回帰型 LLM よりも大幅に改善されているように思われるが、しかしながら、それが生み出すものに対する保証は提供していない。
また、o1モデルと外部検証器(いわゆるLRM-Moduloシステム)を組み合わせることで、システム出力の正しさが保証され、性能がさらに向上することを示す。
関連論文リスト
- Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は大規模言語モデル(LLM)に固有の能力として自己補正を組み込む
CoSCは、一連の自己補正段階を通して動作する。各段階において、LLMは、与えられた問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行し、出力を取得し、その後、その出力を検証する。
第1段階では、LCMは、GPT-4から生成される比較的少量のシードデータで訓練され、初期CoSC能力が確立される。
第2段階では、CoSC能力は、より大きな自己生成データを用いたトレーニングによりさらに強化される。
論文 参考訳(メタデータ) (2024-10-14T17:16:44Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench [17.329365493094542]
PlanBenchは、大規模言語モデル(LLM)の計画能力を評価するためのベンチマークである。
本稿では,現在の LLM と新しい LRM の PlanBench に対する効果を概観する。
論文 参考訳(メタデータ) (2024-09-20T10:20:46Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - On the Planning Abilities of Large Language Models : A Critical
Investigation [34.262740442260515]
我々は,LLMがコモンセンス計画タスクにおいて自律的に計画を作成する上での有効性を評価する。
LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-25T06:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。