Fugu-MT 論文翻訳(概要): PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

論文の概要: PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

arxiv url: http://arxiv.org/abs/2305.19472v2
Date: Wed, 26 Jul 2023 19:45:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-28 19:39:47.110424
Title: PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning
Title（参考訳）: PlaSma:(企業)計画のための手続き的知識モデルを改善するための小さな言語モデル
Authors: Faeze Brahman, Chandra Bhagavatula, Valentina Pyatkin, Jena D. Hwang, Xiang Lorraine Li, Hirona J. Arai, Soumya Sanyal, Keisuke Sakaguchi, Xiang Ren, Yejin Choi
Abstract要約: PlaSmaは、手続き的な知識と(非現実的な)計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。より具体的には、小言語モデルにおける暗黙的知識を高めるために、記号的手続き的知識蒸留を開発する。さらに, 対実的状況に対応するための計画の見直しを必要とする, 対実的計画という新たな課題を導入する。
参考スコア（独自算出の注目度）: 72.0564921186518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Procedural planning, which entails decomposing a high-level goal into a sequence of temporally ordered steps, is an important yet intricate task for machines. It involves integrating common-sense knowledge to reason about complex contextualized situations that are often counterfactual, e.g. "scheduling a doctor's appointment without a phone". While current approaches show encouraging results using large language models (LLMs), they are hindered by drawbacks such as costly API calls and reproducibility issues. In this paper, we advocate planning using smaller language models. We present PlaSma, a novel two-pronged approach to endow small language models with procedural knowledge and (counterfactual) planning capabilities. More concretely, we develop symbolic procedural knowledge distillation to enhance the implicit knowledge in small language models and an inference-time algorithm to facilitate more structured and accurate reasoning. In addition, we introduce a novel task, Counterfactual Planning, that requires a revision of a plan to cope with a counterfactual situation. In both the original and counterfactual setting, we show that orders-of-magnitude smaller models (770M-11B parameters) can compete and often surpass their larger teacher models' capabilities.
Abstract（参考訳）: 高レベルの目標を時間的に順序付けられた一連のステップに分解する手続き的計画は、マシンにとって重要で複雑な作業である。これは「電話なしで医師の予約をスケジュールする」など、しばしば事実に反する複雑な状況についての推論に常識的な知識を統合することである。現在のアプローチでは、大きな言語モデル(LLM)を使用して結果を奨励しているが、コストのかかるAPI呼び出しや再現性の問題といった欠点によって妨げられている。本稿では,より小さな言語モデルを用いたプランニングを提唱する。手続き的知識と(非現実的な)計画能力を備えた小型言語モデルを実現するための,新しい2段階のアプローチであるPlasmaを提案する。より具体的には,小言語モデルにおける暗黙的知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。さらに, 対実的状況に対応するための計画の見直しを必要とする, 対実的計画という新たな課題を導入する。原型モデルと対物モデルの両方において、770M-11Bパラメータのオーダーが、より大きな教師モデルの能力を競い、しばしば超えることを示す。

関連論文リスト

Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study [0.0]
大規模言語モデルは、ロボットタスク計画への関心を喚起している。これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
論文参考訳（メタデータ） (2025-07-31T14:25:54Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples [17.372378259072992]
本研究では,FLARE(Few-shot Language with Environmental Adaptive Replanning Embodied Agent)を提案する。また,エージェントからの視覚的手がかりを用いて誤りを修正することを提案する。提案手法では,視覚的手がかりによっていくつかの言語ペアを使用でき,最先端のアプローチよりも優れています。
論文参考訳（メタデータ） (2024-12-23T05:20:01Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Learning to Plan for Language Modeling from Unlabeled Data [23.042650737356496]
我々は,自己指導型学習目標を用いて,将来の執筆プロセスを計画するためのモジュールを訓練する。テキストコンテキストを考えると、この計画モジュールは、クラスタ化されたテキスト埋め込み空間のセントロイドに対応する、将来の抽象的な書き込みアクションを予測することを学習する。
論文参考訳（メタデータ） (2024-03-31T09:04:01Z)
PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文参考訳（メタデータ） (2024-03-05T18:01:59Z)
Interactive Task Planning with Language Models [97.86399877812923]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、多くの場合、重いプロンプトエンジニアリングやドメイン固有の事前訓練されたモデルを必要とする。本稿では,言語モデルを用いた対話型タスクプランニングを実現するためのシンプルなフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-16T17:59:12Z)
Statler: State-Maintaining Language Models for Embodied Reasoning [19.884696137429813]
本研究では,大言語モデルに世界状態を推定するフレームワークであるStatlerを提案する。そして、我々のフレームワークは、現在の世界状態の推定に対して各アクションを条件付けします。複数のロボット計画タスクにおいて、強力な競合する手法を著しく上回っている。
論文参考訳（メタデータ） (2023-06-30T17:58:02Z)
Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文参考訳（メタデータ） (2023-06-21T20:47:23Z)
Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文参考訳（メタデータ） (2022-06-06T22:09:52Z)
Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm [0.0]
自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。モデルに種を付けて、さまざまなタスクのための独自の自然言語プロンプトを生成するメタプロンプトのアイデアを紹介します。
論文参考訳（メタデータ） (2021-02-15T05:27:55Z)
STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-30T17:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。