論文の概要: Learning New Skills after Deployment: Improving open-domain
internet-driven dialogue with human feedback
- arxiv url: http://arxiv.org/abs/2208.03270v1
- Date: Fri, 5 Aug 2022 16:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:12:44.365175
- Title: Learning New Skills after Deployment: Improving open-domain
internet-driven dialogue with human feedback
- Title(参考訳): 展開後の新しいスキルを学ぶ:人間のフィードバックによるオープンドメインのインターネット駆動対話の改善
- Authors: Jing Xu, Megan Ung, Mojtaba Komeili, Kushal Arora, Y-Lan Boureau,
Jason Weston
- Abstract要約: 学習フレームワークにおけるインターネットによる会話能力の向上について検討する。
デプロイデータを収集し、さまざまな種類のフィードバックを収集します。
最近導入されたDirectorモデルは、他の既存のアプローチよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 22.92577324751342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frozen models trained to mimic static datasets can never improve their
performance. Models that can employ internet-retrieval for up-to-date
information and obtain feedback from humans during deployment provide the
promise of both adapting to new information, and improving their performance.
In this work we study how to improve internet-driven conversational skills in
such a learning framework. We collect deployment data, which we make publicly
available, of human interactions, and collect various types of human feedback
-- including binary quality measurements, free-form text feedback, and
fine-grained reasons for failure. We then study various algorithms for
improving from such feedback, including standard supervised learning, rejection
sampling, model-guiding and reward-based learning, in order to make
recommendations on which type of feedback and algorithms work best. We find the
recently introduced Director model (Arora et al., '22) shows significant
improvements over other existing approaches.
- Abstract(参考訳): 静的データセットを模倣するように訓練された凍結モデルは、パフォーマンスを決して改善しない。
最新の情報にインターネット検索を利用でき、展開中に人間からフィードバックを得るモデルは、新しい情報に適応し、パフォーマンスを向上させるという約束を提供する。
本研究では,このような学習フレームワークにおいて,インターネットによる会話能力を改善する方法について検討する。
私たちは、公開している人間のインタラクションのデプロイメントデータを収集し、バイナリ品質の測定、自由形式のテキストフィードバック、失敗のきめ細かい理由など、さまざまな種類の人間のフィードバックを収集します。
次に, 標準教師あり学習, 拒否サンプリング, モデルガイド, 報酬ベース学習など, フィードバックから改善するための様々なアルゴリズムについて検討し, フィードバックとアルゴリズムのどちらが最適かを推薦する。
最近導入されたディレクターモデル(arora et al., '22)は、他の既存のアプローチを大きく改善している。
関連論文リスト
- Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文 参考訳(メタデータ) (2024-10-07T15:12:01Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training a Helpful and Harmless Assistant with Reinforcement Learning
from Human Feedback [8.409764908043396]
人からのフィードバックからの好みのモデリングと強化学習を微調整言語モデルに適用し、補助的アシスタントとして機能させる。
このアライメントトレーニングにより,ほぼすべてのNLP評価の性能が向上することがわかった。
オンライントレーニングの反復的なモードについて検討し、人間のフィードバックデータを用いて毎週のケイデンスで好みモデルとRLポリシーを更新する。
論文 参考訳(メタデータ) (2022-04-12T15:02:38Z) - Interactive Machine Learning for Image Captioning [8.584932159968002]
画像キャプションモデルのための対話型学習手法を提案する。
我々は、データ拡張手法を用いてフィードバックを乗算することで、人間のフィードバックをできるだけ活用するシステムを構想する。
論文 参考訳(メタデータ) (2022-02-28T09:02:32Z) - Teaching with Commentaries [108.62722733649542]
コメントとメタ情報を用いたフレキシブルな教育フレームワークを提案する。
解説はトレーニングのスピードと/またはパフォーマンスを改善することができる。
パフォーマンスのメリットを得るために、新しいモデルをトレーニングするときに、コメンタリを再利用できる。
論文 参考訳(メタデータ) (2020-11-05T18:52:46Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。