Fugu-MT 論文翻訳(概要): KAUCUS: Knowledge Augmented User Simulators for Training Language Model Assistants

論文の概要: KAUCUS: Knowledge Augmented User Simulators for Training Language Model Assistants

arxiv url: http://arxiv.org/abs/2401.16454v1
Date: Mon, 29 Jan 2024 06:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 17:42:58.056777
Title: KAUCUS: Knowledge Augmented User Simulators for Training Language Model Assistants
Title（参考訳）: kaucus: 言語モデルアシスタントのトレーニングのための知識拡張ユーザシミュレータ
Authors: Kaustubh D. Dhole
Abstract要約: 有用な対話データを生成するシミュレータを作成することにより、効果的な指示追従アシスタントを開発することができる。以前のユーザシミュレータは一般的に多様性に欠けており、ほとんどはクローズドドメインであり、厳密なスキーマを必要としていた。本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,多様なユーザシミュレータ作成プロセスの概要について述べる。
参考スコア（独自算出の注目度）: 3.724713116252253
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An effective multi-turn instruction-following assistant can be developed by creating a simulator that can generate useful interaction data. Apart from relying on its intrinsic weights, an ideal user simulator should also be able to bootstrap external knowledge rapidly in its raw form to simulate the multifarious diversity of text available over the internet. Previous user simulators generally lacked diversity, were mostly closed domain, and necessitated rigid schema making them inefficient to rapidly scale to incorporate external knowledge. In this regard, we introduce, Kaucus, a Knowledge-Augmented User Simulator framework, to outline a process of creating diverse user simulators, that can seamlessly exploit external knowledge as well as benefit downstream assistant model training. Through two GPT-J based simulators viz., a Retrieval Augmented Simulator and a Summary Controlled Simulator we generate diverse simulator-assistant interactions. Through reward and preference model-based evaluations, we find that these interactions serve as useful training data and create more helpful downstream assistants. We also find that incorporating knowledge through retrieval augmentation or summary control helps create better assistants.
Abstract（参考訳）: 有用な対話データを生成するシミュレータを作成することで、効果的なマルチターン命令追従アシスタントを開発することができる。その本質的な重みに頼らず、理想的なユーザーシミュレーターは、外部の知識を生の形で迅速にブートストラップし、インターネット上で利用できる多種多様なテキストをシミュレートできる。従来のユーザシミュレータは、一般的には多様性がなく、主にクローズドドメインであり、厳格なスキーマを必要とするため、外部の知識を取り込むために迅速にスケールすることができない。本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,外部知識をシームレスに活用し,下流アシスタントモデルトレーニングのメリットを享受する,多様なユーザシミュレータ作成のプロセスを概説する。 2つのgpt-jベースのシミュレータviz.,検索拡張シミュレータ,要約制御シミュレータにより,多様なシミュレータ-アシスタントインタラクションを生成する。報酬と選好モデルに基づく評価を通じて,これらのインタラクションは,より有用なトレーニングデータとして機能し,より有用な下流アシスタントを作成する。また,検索の強化や要約制御を通じて知識を取り入れることで,より良いアシスタントを創出できることがわかった。

関連論文リスト

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training [55.72784274656801]
構造化されたUI状態と遷移を生成するスケーラブルなパラダイムを導入し、大規模にトレーニングトラジェクトリを合成する。このパラダイムは、多様なUI状態のためのデジタルワールドシミュレータ、コヒーレント探索のためのガイド付きロールアウトプロセス、軌道ラッパーを統合している。 WebArenaとAndroidWorldの実験では、UI-Simulatorは実際のUIでトレーニングされたオープンソースエージェントと競合するか、あるいは超越している。
論文参考訳（メタデータ） (2025-10-16T17:59:38Z)
SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants? [61.07963107032645]
大規模言語モデル(LLM)は、対話型アプリケーションでますます使われている。人間の評価は、マルチターン会話におけるパフォーマンスを評価するためのゴールドスタンダードのままである。我々は、909の注釈付き人間とLLMの会話を2つの対話タスクで行うベンチマークであるSimulatorArenaを紹介した。
論文参考訳（メタデータ） (2025-10-06T23:17:44Z)
YuLan-OneSim: Towards the Next Generation of Social Simulator with Large Language Models [50.86336063222539]
本稿では,YuLan-OneSimというソーシャルシミュレータを紹介する。ユーザは、シミュレータとの自然言語インタラクションを通じて、シミュレーションシナリオを記述し、洗練することができます。我々は、経済学、社会学、政治、心理学、組織、人口統計学、法律、コミュニケーションを含む8つの領域にまたがる50のデフォルトシミュレーションシナリオを実装した。
論文参考訳（メタデータ） (2025-05-12T14:05:17Z)
LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文参考訳（メタデータ） (2024-12-22T12:00:04Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
PeerFL: A Simulator for Peer-to-Peer Federated Learning at Scale [3.7338201977027885]
この研究は、ピアツーピアのフェデレーション学習ツールと、広く使われているネットワークシミュレータNS3を統合する。本実験では,大規模計算資源利用におけるシミュレータの効率性を示す。フレームワークはオープンソースで、コミュニティへの使用と拡張が可能である。
論文参考訳（メタデータ） (2024-05-28T05:30:18Z)
A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。 LLM(Large Language Models)は、計算能力の新たな時代を迎えている。ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-13T03:02:56Z)
How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。そこで我々はSimpleUserSimを提案する。
論文参考訳（メタデータ） (2024-03-25T04:21:06Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-10-09T19:42:22Z)
Metaphorical User Simulators for Evaluating Task-oriented Dialogue Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-02T05:11:03Z)
A Discrete-event-based Simulator for Deep Learning at Edge [7.096287095663305]
離散イベントに基づくエッジ学習シミュレータを提案する。ディープラーニングモジュールとネットワークシミュレーションモジュールが含まれている。私たちのフレームワークは汎用的であり、ディープラーニングモデルがデプロイされる前に、さまざまなディープラーニング問題に使用できる。
論文参考訳（メタデータ） (2021-12-02T03:13:53Z)
Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。 2人のエージェントが互いに相互作用し、同時に一緒に学習されます。その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文参考訳（メタデータ） (2020-04-08T04:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。