論文の概要: LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
- arxiv url: http://arxiv.org/abs/2409.13373v1
- Date: Fri, 20 Sep 2024 10:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:28:56.476699
- Title: LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
- Title(参考訳): LLMはまだ計画できない, LRMは可能か? OpenAIのo1のPlanBenchに関する予備的評価
- Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati,
- Abstract要約: PlanBenchは、大規模言語モデル(LLM)の計画能力を評価するためのベンチマークである。
本稿では,現在の LLM と新しい LRM の PlanBench に対する効果を概観する。
- 参考スコア(独自算出の注目度): 17.329365493094542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities. PlanBench, an extensible benchmark we developed in 2022, soon after the release of GPT3, has remained an important tool for evaluating the planning abilities of LLMs. Despite the slew of new private and open source LLMs since GPT3, progress on this benchmark has been surprisingly slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs--making it a new kind of model: a Large Reasoning Model (LRM). Using this development as a catalyst, this paper takes a comprehensive look at how well current LLMs and new LRMs do on PlanBench. As we shall see, while o1's performance is a quantum improvement on the benchmark, outpacing the competition, it is still far from saturating it. This improvement also brings to the fore questions about accuracy, efficiency, and guarantees which must be considered before deploying such systems.
- Abstract(参考訳): 望ましい状況を達成するための行動コースを計画する能力は、長年、知的エージェントのコアコンピテンスと考えられてきた。
大規模言語モデル(LLM)の出現により、そのような計画能力を持っているかどうかという問題にかなりの関心が寄せられている。
GPT3のリリース直後の2022年に開発した拡張可能なベンチマークであるPlanBenchは、LLMの計画能力を評価する上で重要なツールであり続けている。
GPT3以来、新しいプライベートおよびオープンソース LLM が多数存在するが、このベンチマークの進捗は驚くほど遅かった。
OpenAIによると、最近のo1(Strawberry)モデルは、自己回帰型LLMの通常の制限から逃れるために特別に構築され、訓練されている。
この開発を触媒として利用し、現在のLLMと新しいLRMがPlanBenchにどの程度優れているかを包括的に検討する。
ご覧の通り、o1のパフォーマンスはベンチマークの量子的改善であり、競争を上回りますが、それでも飽和には程遠いです。
この改善は、そのようなシステムをデプロイする前に考慮すべき正確性、効率、保証に関する問題にもつながる。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - LLMs Can Plan Only If We Tell Them [16.593590353705697]
大規模言語モデル (LLM) は自然言語処理や推論において重要な機能を示している。
本稿では,LLMが人間と競合する長期計画を独立に生成できるかどうかを考察する。
論文 参考訳(メタデータ) (2025-01-23T10:46:14Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Fully Open Source Moxin-7B Technical Report [38.13392000279939]
大きな言語モデル(LLM)は、その人気と能力の急激な上昇によって、大きな変革を遂げている。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLLMであるMoxin 7Bを紹介します。
本モデルは,事前学習コードと構成の包括的リリースを通じて,オープンサイエンスのMOF分類レベルを最大化する。
論文 参考訳(メタデータ) (2024-12-08T02:01:46Z) - Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 [15.863162558281616]
我々は,2つのLEM(o1-previewとo1-mini)の計画能力について,計画とスケジューリングのベンチマークで評価した。
LRM-Moduloシステムでは,o1モデルを外部検証器と組み合わせることで,システム出力の正しさが保証される。
論文 参考訳(メタデータ) (2024-10-03T03:04:36Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - On the Planning Abilities of Large Language Models (A Critical
Investigation with a Proposed Benchmark) [30.223130782579336]
我々は,国際計画コンペティションで採用されるドメインの種類に基づいて,ベンチマークスイートを開発する。
LLMを3つのモードで評価する: 自律型, ループ型, ループ型, ループ型, ループ型である。
以上の結果から, LLMが自律的に実行可能な計画を生成する能力は極めて高く, 平均的な成功率は3%程度に過ぎなかった。
論文 参考訳(メタデータ) (2023-02-13T21:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。