Fugu-MT 論文翻訳(概要): Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1

論文の概要: Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1

arxiv url: http://arxiv.org/abs/2410.02162v1
Date: Thu, 3 Oct 2024 03:04:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 08:25:54.871062
Title: Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1
Title（参考訳）: 麦畑におけるプランニング: LRM o1の計画とスケジューリング能力の評価と改善
Authors: Karthik Valmeekam, Kaya Stechly, Atharva Gundawar, Subbarao Kambhampati,
Abstract要約: 我々は,2つのLEM(o1-previewとo1-mini)の計画能力について,計画とスケジューリングのベンチマークで評価した。 LRM-Moduloシステムでは,o1モデルを外部検証器と組み合わせることで,システム出力の正しさが保証される。
参考スコア（独自算出の注目度）: 15.863162558281616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities, but -- despite the slew of new private and open source LLMs since GPT3 -- progress has remained slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs -- making it a new kind of model: a Large Reasoning Model (LRM). In this paper, we evaluate the planning capabilities of two LRMs (o1-preview and o1-mini) on both planning and scheduling benchmarks. We see that while o1 does seem to offer significant improvements over autoregressive LLMs, this comes at a steep inference cost, while still failing to provide any guarantees over what it generates. We also show that combining o1 models with external verifiers -- in a so-called LRM-Modulo system -- guarantees the correctness of the combined system's output while further improving performance.
Abstract（参考訳）: 望ましい状況を達成するための行動コースを計画する能力は、長年、知的エージェントのコアコンピテンスと考えられてきた。大きな言語モデル(LLMs)の出現により、そのような計画能力を持っているかどうかという問題にかなりの関心が寄せられているが、GPT3以降、新しいプライベートおよびオープンソース LLM が無数にあるにもかかわらず、進歩は遅いままである。 OpenAIによると、最近のo1(Strawberry)モデルは、自動回帰LPMの通常の制限から逃れるために特別に構築され、訓練されている。本稿では,2つの LRM (o1-preview と o1-mini) の計画性能を,計画とスケジューリングのベンチマークで評価する。 o1 は自己回帰型 LLM よりも大幅に改善されているように思われるが、しかしながら、それが生み出すものに対する保証は提供していない。また、o1モデルと外部検証器(いわゆるLRM-Moduloシステム)を組み合わせることで、システム出力の正しさが保証され、性能がさらに向上することを示す。

関連論文リスト

PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文参考訳（メタデータ） (2025-07-10T07:30:44Z)
CRISP: Complex Reasoning with Interpretable Step-based Plans [15.656686375199921]
数学的推論とコード生成のための高レベルプランのデータセットであるCRISP(Complex Reasoning with Interpretable Step-based Plans)を紹介する。 CRISP上で小さなモデルを微調整することで、より大規模なモデルよりも高品質なプランを少数ショットプロンプトで作成できることを実証する。
論文参考訳（メタデータ） (2025-07-09T11:40:24Z)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳（メタデータ） (2025-05-26T12:05:16Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
LLMs Can Plan Only If We Tell Them [16.593590353705697]
大規模言語モデル (LLM) は自然言語処理や推論において重要な機能を示している。本稿では,LLMが人間と競合する長期計画を独立に生成できるかどうかを考察する。
論文参考訳（メタデータ） (2025-01-23T10:46:14Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [42.10844666788254]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-08T02:01:46Z)
Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。 7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文参考訳（メタデータ） (2024-10-17T16:04:07Z)
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は大規模言語モデル(LLM)に固有の能力として自己補正を組み込む CoSCは、一連の自己補正段階を通して動作する。各段階において、LLMは、与えられた問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行し、出力を取得し、その後、その出力を検証する。第1段階では、LCMは、GPT-4から生成される比較的少量のシードデータで訓練され、初期CoSC能力が確立される。第2段階では、CoSC能力は、より大きな自己生成データを用いたトレーニングによりさらに強化される。
論文参考訳（メタデータ） (2024-10-14T17:16:44Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文参考訳（メタデータ） (2024-09-30T03:58:43Z)
LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench [17.329365493094542]
PlanBenchは、大規模言語モデル(LLM)の計画能力を評価するためのベンチマークである。本稿では,現在の LLM と新しい LRM の PlanBench に対する効果を概観する。
論文参考訳（メタデータ） (2024-09-20T10:20:46Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
On the Planning Abilities of Large Language Models : A Critical Investigation [34.262740442260515]
我々は,LLMがコモンセンス計画タスクにおいて自律的に計画を作成する上での有効性を評価する。 LLM-Modulo設定では、LLM生成したプランは、基礎となる音響プランナの探索プロセスを改善することができることを示す。
論文参考訳（メタデータ） (2023-05-25T06:32:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。