論文の概要: Ask more, know better: Reinforce-Learned Prompt Questions for Decision
Making with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18127v1
- Date: Fri, 27 Oct 2023 13:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:45:13.931281
- Title: Ask more, know better: Reinforce-Learned Prompt Questions for Decision
Making with Large Language Models
- Title(参考訳): より多く、もっとよく聞く: 大規模言語モデルによる意思決定のための強化学習型プロンプト質問
- Authors: Xue Yan, Yan Song, Xinyu Cui, Filippos Christianos, Haifeng Zhang,
David Henry Mguni, Jun Wang
- Abstract要約: 大規模言語モデル(LLM)は、アクションベースのポリシーと思考の連鎖(CoT)推論を組み合わせる。
現在、これらのプロンプトは広範囲な人的労働力を利用して手作りされており、その結果、しばしば一般化に失敗するCoTポリシーが導かれる。
本稿では,複雑な推論を用いた実環境におけるタスク解決のための,完全に統合されたエンドツーエンドフレームワークに向けた第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 18.409654309062027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate their promise in tackling
complicated practical challenges by combining action-based policies with chain
of thought (CoT) reasoning. Having high-quality prompts on hand, however, is
vital to the framework's effectiveness. Currently, these prompts are
handcrafted utilizing extensive human labor, resulting in CoT policies that
frequently fail to generalize. Human intervention is also required in order to
develop grounding functions that ensure low-level controllers appropriately
process CoT reasoning. In this paper, we take the first step towards a fully
integrated end-to-end framework for task-solving in real settings employing
complicated reasoning. To that purpose, we offer a new leader-follower bilevel
framework capable of learning to ask relevant questions (prompts) and
subsequently undertaking reasoning to guide the learning of actions to be
performed in an environment. A good prompt should make introspective revisions
based on historical findings, leading the CoT to consider the anticipated
goals. A prompt-generator policy has its own aim in our system, allowing it to
adapt to the action policy and automatically root the CoT process towards
outputs that lead to decisive, high-performing actions. Meanwhile, the action
policy is learning how to use the CoT outputs to take specific actions. Our
empirical data reveal that our system outperforms leading methods in agent
learning benchmarks such as Overcooked and FourRoom.
- Abstract(参考訳): 大規模言語モデル(LLM)は、行動ベースのポリシーと思考の連鎖(CoT)推論を組み合わせることで、複雑な実践的な課題に取り組むという彼らの約束を示す。
しかし、高品質なプロンプトを持つことは、フレームワークの有効性にとって不可欠である。
現在、これらのプロンプトは広範囲な人的労働力を利用して手作りされており、その結果、しばしば一般化に失敗するCoTポリシーが導かれる。
人間の介入も必要であり、低レベルコントローラがCoT推論を適切に処理するための基盤関数を開発する。
本稿では,複雑な推論を用いた実環境におけるタスク解決のための,完全に統合されたエンドツーエンドフレームワークに向けた第一歩を踏み出す。
その目的のために、関係する質問(プロンプト)を学習し、その後、環境における行動の学習を指導するための推論を行うことのできる、新しいリーダー・フォロー・バイレベル・フレームワークを提供する。
適切なプロンプトは、歴史的知見に基づいて内省的な修正を行うことで、CoTは予想される目標を考慮すべきである。
プロンプト生成ポリシーは、我々のシステムにおいて独自の目的を持ち、アクションポリシーに適応し、CoTプロセスが決定的かつ高いパフォーマンスのアクションにつながる出力に自動的に根ざすことができる。
一方、アクションポリシーは、cot出力を使って特定のアクションを取る方法を学びます。
実験データによると,本システムはOvercookedやFourRoomといったエージェント学習ベンチマークにおいて,先進的な手法よりも優れていることがわかった。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Taking Action Towards Graceful Interaction: The Effects of Performing
Actions on Modelling Policies for Instruction Clarification Requests [23.405917899107767]
Transformerベースのモデルは、インストラクションCRを問うときの適切なポリシを学ばない。
本稿では,メタコミュニケーション行動の学習におけるデータ駆動パラダイムの欠点について論じる。
論文 参考訳(メタデータ) (2024-01-30T14:18:31Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework [17.017688226277834]
我々は、人間から追加情報を要求するタイミングを決定するための階層的な強化学習フレームワークを定式化した。
シミュレーションによるナビゲーション問題の結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2021-10-14T01:30:36Z) - Feudal Reinforcement Learning by Reading Manuals [23.19226806839748]
本稿では,マネージャエージェントとワーカーエージェントからなるフェーダル強化学習モデルを提案する。
本モデルは,テキストレベルの推論と低レベルの認識と行動のミスマッチを効果的に軽減する。
論文 参考訳(メタデータ) (2021-10-13T03:50:15Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。