論文の概要: Improving Open Language Models by Learning from Organic Interactions
- arxiv url: http://arxiv.org/abs/2306.04707v1
- Date: Wed, 7 Jun 2023 18:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:13:34.824615
- Title: Improving Open Language Models by Learning from Organic Interactions
- Title(参考訳): 有機的相互作用から学ぶオープン言語モデルの改善
- Authors: Jing Xu, Da Ju, Joshua Lane, Mojtaba Komeili, Eric Michael Smith,
Megan Ung, Morteza Behrooz, William Ngan, Rashel Moritz, Sainbayar
Sukhbaatar, Y-Lan Boureau, Jason Weston, Kurt Shuster
- Abstract要約: BlenderBot 3xは、会話モデルであるBlenderBot 3のアップデートである。
現在、システムの参加ユーザからのオーガニックな会話とフィードバックデータを使ってトレーニングされている。
我々は,研究コミュニティが使用する非特定インタラクションデータを公開している。
- 参考スコア(独自算出の注目度): 26.541326415697807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BlenderBot 3x, an update on the conversational model BlenderBot 3,
which is now trained using organic conversation and feedback data from
participating users of the system in order to improve both its skills and
safety. We are publicly releasing the participating de-identified interaction
data for use by the research community, in order to spur further progress.
Training models with organic data is challenging because interactions with
people "in the wild" include both high quality conversations and feedback, as
well as adversarial and toxic behavior. We study techniques that enable
learning from helpful teachers while avoiding learning from people who are
trying to trick the model into unhelpful or toxic responses. BlenderBot 3x is
both preferred in conversation to BlenderBot 3, and is shown to produce safer
responses in challenging situations. While our current models are still far
from perfect, we believe further improvement can be achieved by continued use
of the techniques explored in this work.
- Abstract(参考訳): 我々はBlenderBot 3xを紹介した。BlenderBot 3は会話モデルであるBlenderBot 3のアップデートであり、そのスキルと安全性の両方を改善するために、システムに参加するユーザのオーガニックな会話とフィードバックデータを用いて訓練されている。
我々は,さらなる進展を促すため,研究コミュニティが使用する非識別対話データを公開する。
有機データを使ったトレーニングモデルは、高品質な会話とフィードバックの両方に加えて、敵対的かつ有害な行動も含んでいるため、難しい。
我々は,モデルから無害あるいは有毒な反応に騙そうとする人々からの学習を回避しつつ,支援教師からの学習を可能にする技術を研究する。
BlenderBot 3xはどちらもBlenderBot 3との会話で好まれており、挑戦的な状況においてより安全なレスポンスを生成することが示されている。
現在のモデルはまだ完璧には程遠いが、この研究で探求されたテクニックを継続的に活用することでさらなる改善が達成できると考えている。
関連論文リスト
- Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Interactive Text Generation [75.23894005664533]
我々は,対話型テキスト生成タスクを導入し,実際のユーザを巻き込むことなく,対話型テキスト生成モデルのトレーニングを可能にする。
我々は、Imitation Learningを用いてインタラクティブモデルをトレーニングし、競合する非インタラクティブな生成モデルに対する実験により、インタラクティブにトレーニングされたモデルは非インタラクティブなモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-02T01:57:17Z) - BlenderBot 3: a deployed conversational agent that continually learns to
responsibly engage [41.87861654035883]
BlenderBot 3は、インターネットへのアクセスと長期記憶による対話をオープンドメインで行うことができる対話モデルである。
モデルウェイトとコードの両方をリリースし、また、オーガニックユーザと対話するために、モデルを公開Webページにデプロイしました。
論文 参考訳(メタデータ) (2022-08-05T14:20:46Z) - Empirical study on BlenderBot 2.0 Errors Analysis in terms of Model,
Data and User-Centric Approach [3.7450401861214035]
モデル,データ,ユーザという3つの観点から,BlenderBot 2.0の制限とエラーについて検討する。
データの観点からは、クラウドソーシングの過程で労働者に提供される不明瞭なガイドラインを強調します。
ユーザの視点からは、BlenderBot 2.0の9種類の問題を特定し、その原因を徹底的に調査する。
論文 参考訳(メタデータ) (2022-01-10T09:52:00Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z) - Learning Reward Functions from Scale Feedback [11.941038991430837]
一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。
シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-10-01T09:45:18Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z) - Deploying Lifelong Open-Domain Dialogue Learning [48.12600947313494]
本研究では,オープンドメインファンタジーの世界にある学習エージェントと人間プレイヤーが会話するロールプレイングゲームを構築し,展開する。
自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。
この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集するコストもはるかに安い。
論文 参考訳(メタデータ) (2020-08-18T17:57:26Z) - Recipes for building an open-domain chatbot [44.75975649076827]
良い会話には、会話のポイントとパートナーに耳を傾け、知識、共感、パーソナリティを適切に表示する必要がある。
適切なトレーニングデータと生成戦略を選択すると、大規模なモデルでこれらのスキルを習得できることが示される。
私たちは90M、2.7B、9.4Bのパラメータモデルでこれらのレシピの変種を構築し、モデルとコードを公開しています。
論文 参考訳(メタデータ) (2020-04-28T16:33:25Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。