論文の概要: KAUCUS: Knowledge Augmented User Simulators for Training Language Model
Assistants
- arxiv url: http://arxiv.org/abs/2401.16454v1
- Date: Mon, 29 Jan 2024 06:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:42:58.056777
- Title: KAUCUS: Knowledge Augmented User Simulators for Training Language Model
Assistants
- Title(参考訳): kaucus: 言語モデルアシスタントのトレーニングのための知識拡張ユーザシミュレータ
- Authors: Kaustubh D. Dhole
- Abstract要約: 有用な対話データを生成するシミュレータを作成することにより、効果的な指示追従アシスタントを開発することができる。
以前のユーザシミュレータは一般的に多様性に欠けており、ほとんどはクローズドドメインであり、厳密なスキーマを必要としていた。
本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,多様なユーザシミュレータ作成プロセスの概要について述べる。
- 参考スコア(独自算出の注目度): 3.724713116252253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective multi-turn instruction-following assistant can be developed by
creating a simulator that can generate useful interaction data. Apart from
relying on its intrinsic weights, an ideal user simulator should also be able
to bootstrap external knowledge rapidly in its raw form to simulate the
multifarious diversity of text available over the internet. Previous user
simulators generally lacked diversity, were mostly closed domain, and
necessitated rigid schema making them inefficient to rapidly scale to
incorporate external knowledge. In this regard, we introduce, Kaucus, a
Knowledge-Augmented User Simulator framework, to outline a process of creating
diverse user simulators, that can seamlessly exploit external knowledge as well
as benefit downstream assistant model training. Through two GPT-J based
simulators viz., a Retrieval Augmented Simulator and a Summary Controlled
Simulator we generate diverse simulator-assistant interactions. Through reward
and preference model-based evaluations, we find that these interactions serve
as useful training data and create more helpful downstream assistants. We also
find that incorporating knowledge through retrieval augmentation or summary
control helps create better assistants.
- Abstract(参考訳): 有用な対話データを生成するシミュレータを作成することで、効果的なマルチターン命令追従アシスタントを開発することができる。
その本質的な重みに頼らず、理想的なユーザーシミュレーターは、外部の知識を生の形で迅速にブートストラップし、インターネット上で利用できる多種多様なテキストをシミュレートできる。
従来のユーザシミュレータは、一般的には多様性がなく、主にクローズドドメインであり、厳格なスキーマを必要とするため、外部の知識を取り込むために迅速にスケールすることができない。
本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,外部知識をシームレスに活用し,下流アシスタントモデルトレーニングのメリットを享受する,多様なユーザシミュレータ作成のプロセスを概説する。
2つのgpt-jベースのシミュレータviz.,検索拡張シミュレータ,要約制御シミュレータにより,多様なシミュレータ-アシスタントインタラクションを生成する。
報酬と選好モデルに基づく評価を通じて,これらのインタラクションは,より有用なトレーニングデータとして機能し,より有用な下流アシスタントを作成する。
また,検索の強化や要約制御を通じて知識を取り入れることで,より良いアシスタントを創出できることがわかった。
関連論文リスト
- Choose Your Simulator Wisely: A Review on Open-source Simulators for
Autonomous Driving [25.320362844415012]
シミュレータで開発されたアルゴリズムの有効性が懸念されている。
本稿では,シミュレータの進化を解析し,その機能と実用性について解説する。
アクセシビリティ、保守状態、品質などの要因を考慮して、選択シミュレータの勧告を提示する。
論文 参考訳(メタデータ) (2023-11-18T12:30:41Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Learning Interactive Real-World Simulators [107.12907352474005]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - A Discrete-event-based Simulator for Deep Learning at Edge [7.096287095663305]
離散イベントに基づくエッジ学習シミュレータを提案する。
ディープラーニングモジュールとネットワークシミュレーションモジュールが含まれている。
私たちのフレームワークは汎用的であり、ディープラーニングモデルがデプロイされる前に、さまざまなディープラーニング問題に使用できる。
論文 参考訳(メタデータ) (2021-12-02T03:13:53Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。