論文の概要: KAUCUS: Knowledge Augmented User Simulators for Training Language Model
Assistants
- arxiv url: http://arxiv.org/abs/2401.16454v1
- Date: Mon, 29 Jan 2024 06:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:42:58.056777
- Title: KAUCUS: Knowledge Augmented User Simulators for Training Language Model
Assistants
- Title(参考訳): kaucus: 言語モデルアシスタントのトレーニングのための知識拡張ユーザシミュレータ
- Authors: Kaustubh D. Dhole
- Abstract要約: 有用な対話データを生成するシミュレータを作成することにより、効果的な指示追従アシスタントを開発することができる。
以前のユーザシミュレータは一般的に多様性に欠けており、ほとんどはクローズドドメインであり、厳密なスキーマを必要としていた。
本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,多様なユーザシミュレータ作成プロセスの概要について述べる。
- 参考スコア(独自算出の注目度): 3.724713116252253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective multi-turn instruction-following assistant can be developed by
creating a simulator that can generate useful interaction data. Apart from
relying on its intrinsic weights, an ideal user simulator should also be able
to bootstrap external knowledge rapidly in its raw form to simulate the
multifarious diversity of text available over the internet. Previous user
simulators generally lacked diversity, were mostly closed domain, and
necessitated rigid schema making them inefficient to rapidly scale to
incorporate external knowledge. In this regard, we introduce, Kaucus, a
Knowledge-Augmented User Simulator framework, to outline a process of creating
diverse user simulators, that can seamlessly exploit external knowledge as well
as benefit downstream assistant model training. Through two GPT-J based
simulators viz., a Retrieval Augmented Simulator and a Summary Controlled
Simulator we generate diverse simulator-assistant interactions. Through reward
and preference model-based evaluations, we find that these interactions serve
as useful training data and create more helpful downstream assistants. We also
find that incorporating knowledge through retrieval augmentation or summary
control helps create better assistants.
- Abstract(参考訳): 有用な対話データを生成するシミュレータを作成することで、効果的なマルチターン命令追従アシスタントを開発することができる。
その本質的な重みに頼らず、理想的なユーザーシミュレーターは、外部の知識を生の形で迅速にブートストラップし、インターネット上で利用できる多種多様なテキストをシミュレートできる。
従来のユーザシミュレータは、一般的には多様性がなく、主にクローズドドメインであり、厳格なスキーマを必要とするため、外部の知識を取り込むために迅速にスケールすることができない。
本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,外部知識をシームレスに活用し,下流アシスタントモデルトレーニングのメリットを享受する,多様なユーザシミュレータ作成のプロセスを概説する。
2つのgpt-jベースのシミュレータviz.,検索拡張シミュレータ,要約制御シミュレータにより,多様なシミュレータ-アシスタントインタラクションを生成する。
報酬と選好モデルに基づく評価を通じて,これらのインタラクションは,より有用なトレーニングデータとして機能し,より有用な下流アシスタントを作成する。
また,検索の強化や要約制御を通じて知識を取り入れることで,より良いアシスタントを創出できることがわかった。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - PeerFL: A Simulator for Peer-to-Peer Federated Learning at Scale [3.7338201977027885]
この研究は、ピアツーピアのフェデレーション学習ツールと、広く使われているネットワークシミュレータNS3を統合する。
本実験では,大規模計算資源利用におけるシミュレータの効率性を示す。
フレームワークはオープンソースで、コミュニティへの使用と拡張が可能である。
論文 参考訳(メタデータ) (2024-05-28T05:30:18Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - A Discrete-event-based Simulator for Deep Learning at Edge [7.096287095663305]
離散イベントに基づくエッジ学習シミュレータを提案する。
ディープラーニングモジュールとネットワークシミュレーションモジュールが含まれている。
私たちのフレームワークは汎用的であり、ディープラーニングモデルがデプロイされる前に、さまざまなディープラーニング問題に使用できる。
論文 参考訳(メタデータ) (2021-12-02T03:13:53Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。