論文の概要: Ask more, know better: Reinforce-Learned Prompt Questions for Decision
Making with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18127v2
- Date: Thu, 29 Feb 2024 03:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:21:50.060337
- Title: Ask more, know better: Reinforce-Learned Prompt Questions for Decision
Making with Large Language Models
- Title(参考訳): より多く、もっとよく聞く: 大規模言語モデルによる意思決定のための強化学習型プロンプト質問
- Authors: Xue Yan, Yan Song, Xinyu Cui, Filippos Christianos, Haifeng Zhang,
David Henry Mguni, Jun Wang
- Abstract要約: 大規模言語モデル(LLM)は、アクションベースのポリシーと思考の連鎖(CoT)推論を組み合わせる。
人間の介入は、低レベルのコントローラがCoT推論を適切に処理することを保証する基盤機能を開発するためにも必要である。
複雑なタスク解決のための包括的学習フレームワークを提案し,人間の事前知識をアクションポリシーの学習に取り入れた。
- 参考スコア(独自算出の注目度): 18.409654309062027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate their promise in tackling
complicated practical challenges by combining action-based policies with chain
of thought (CoT) reasoning. Having high-quality prompts on hand, however, is
vital to the framework's effectiveness. Currently, these prompts are
handcrafted utilising extensive human labor, resulting in CoT policies that
frequently fail to generalise. Human intervention is also required to develop
grounding functions that ensure low-level controllers appropriately process CoT
reasoning. In this paper, we propose a comprehensive training framework for
complex task-solving, incorporating human prior knowledge into the learning of
action policies. To that purpose, we offer a new leader-follower bilevel
framework that is capable of learning to ask relevant questions (prompts) and
subsequently undertaking reasoning to guide the learning of actions. The prompt
policy is employed to make introspective revisions based on historical
findings, leading the CoT process to consider the anticipated goals and
generate outputs that lead to decisive, high-performing actions. The action
policy subsequently learns to comprehend and integrate the CoT outputs to take
actions. Our empirical data reveal that our framework outperforms leading
methods in $5$ decision-making tasks such as Overcooked and FourRoom.
- Abstract(参考訳): 大規模言語モデル(LLM)は、行動ベースのポリシーと思考の連鎖(CoT)推論を組み合わせることで、複雑な実践的な課題に取り組むという彼らの約束を示す。
しかし、高品質なプロンプトを持つことは、フレームワークの有効性にとって不可欠である。
現在、これらのプロンプトは、広範囲な人的労働力を活用して手作りされている。
人間の介入は、低レベルのコントローラがCoT推論を適切に処理するための基盤関数の開発にも必要である。
本稿では,複雑なタスク解決のための包括的学習フレームワークを提案し,人間の事前知識をアクションポリシーの学習に取り入れた。
その目的のために、我々は、関連する質問(プロンプト)を学習し、その後、行動の学習を導くための推論を行うことのできる、新しいリーダー・フォロー・バイレベルフレームワークを提供する。
急進的な政策は、歴史的発見に基づいて内省的な修正を行うために採用され、CoTプロセスは期待される目標を考慮し、決定的かつ高いパフォーマンスの行動をもたらすアウトプットを生成する。
その後、アクションポリシーはcot出力の理解と統合を学び、アクションを取る。
実証データによると、私たちのフレームワークはOvercookedやFourRoomといった5ドルの意思決定タスクにおいて、主要なメソッドよりも優れています。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Taking Action Towards Graceful Interaction: The Effects of Performing
Actions on Modelling Policies for Instruction Clarification Requests [23.405917899107767]
Transformerベースのモデルは、インストラクションCRを問うときの適切なポリシを学ばない。
本稿では,メタコミュニケーション行動の学習におけるデータ駆動パラダイムの欠点について論じる。
論文 参考訳(メタデータ) (2024-01-30T14:18:31Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework [17.017688226277834]
我々は、人間から追加情報を要求するタイミングを決定するための階層的な強化学習フレームワークを定式化した。
シミュレーションによるナビゲーション問題の結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2021-10-14T01:30:36Z) - Feudal Reinforcement Learning by Reading Manuals [23.19226806839748]
本稿では,マネージャエージェントとワーカーエージェントからなるフェーダル強化学習モデルを提案する。
本モデルは,テキストレベルの推論と低レベルの認識と行動のミスマッチを効果的に軽減する。
論文 参考訳(メタデータ) (2021-10-13T03:50:15Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。