論文の概要: Improving alignment of dialogue agents via targeted human judgements
- arxiv url: http://arxiv.org/abs/2209.14375v1
- Date: Wed, 28 Sep 2022 19:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:09:26.189753
- Title: Improving alignment of dialogue agents via targeted human judgements
- Title(参考訳): 対象者の判断による対話エージェントのアライメントの改善
- Authors: Amelia Glaese, Nat McAleese, Maja Tr\k{e}bacz, John Aslanides, Vlad
Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe
Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona
Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie
Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, So\v{n}a Mokr\'a,
Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel,
William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne
Hendricks, Geoffrey Irving
- Abstract要約: Sparrowは、インフォメーション検索の対話エージェントで、インフォメーションされた言語モデルベースラインよりも便利で、正確で、無害であるように訓練されている。
我々は、人間からのフィードバックから強化学習を使用して、モデルに2つの新しい追加を加えて、人間のレイパーがエージェントの行動を判断するのを助ける。
- 参考スコア(独自算出の注目度): 29.83026312955946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Sparrow, an information-seeking dialogue agent trained to be more
helpful, correct, and harmless compared to prompted language model baselines.
We use reinforcement learning from human feedback to train our models with two
new additions to help human raters judge agent behaviour. First, to make our
agent more helpful and harmless, we break down the requirements for good
dialogue into natural language rules the agent should follow, and ask raters
about each rule separately. We demonstrate that this breakdown enables us to
collect more targeted human judgements of agent behaviour and allows for more
efficient rule-conditional reward models. Second, our agent provides evidence
from sources supporting factual claims when collecting preference judgements
over model statements. For factual questions, evidence provided by Sparrow
supports the sampled response 78% of the time. Sparrow is preferred more often
than baselines while being more resilient to adversarial probing by humans,
violating our rules only 8% of the time when probed. Finally, we conduct
extensive analyses showing that though our model learns to follow our rules it
can exhibit distributional biases.
- Abstract(参考訳): 本稿では,言語モデルベースラインに対して,より役に立つように訓練された情報検索対話エージェントであるSparrowを紹介する。
人間のフィードバックから強化学習し、2つの新しい追加でモデルをトレーニングし、ヒューマン・レートラーがエージェントの振る舞いを判断するのに役立つ。
まず、エージェントをより便利で無害にするために、エージェントが従うべき自然言語ルールへの適切な対話の要求を分解し、各ルールについてラティアに個別に尋ねる。
この分解により、エージェントの行動のより標的となる人間の判断を収集することができ、より効率的なルール条件報酬モデルが実現可能であることを実証する。
第2に,本エージェントは,モデル文よりも優先判断を収集する際に,事実主張を支持する情報源から証拠を提供する。
事実的な質問に対しては、sparrowが提供した証拠が、サンプル化された回答の78%をサポートする。
スプローはベースラインよりも好まれることが多いが、人間による敵の探究に対する耐性は高く、我々の規則は調査された時間のわずか8%に満たない。
最後に,モデルが規則に従うことを学ぶ一方で,分布バイアスを示すことができることを示す広範な分析を行う。
関連論文リスト
- Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Pointing out Human Answer Mistakes in a Goal-Oriented Visual Dialogue [10.17712881221346]
現実のシナリオは、時に人間のミスを伴い、インテリジェントなエージェントが失敗する可能性がある。
人間の解答ミスは質問の種類によって異なり、人間の誤答の未使用データ集合を分析して視覚対話を反転させることが示される。
論文 参考訳(メタデータ) (2023-09-19T07:22:05Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad
Responses into Good Labels [34.6235464256814]
Juicerは、バイナリとフリーフォームの両方の人間のフィードバックを利用するためのフレームワークである。
モデル修正応答による強化訓練が最終対話モデルを改善することが判明した。
論文 参考訳(メタデータ) (2022-10-28T04:57:21Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - "Wait, I'm Still Talking!" Predicting the Dialogue Interaction Behavior
Using Imagine-Then-Arbitrate Model [24.560203199376478]
実際の人間と人間の会話では、1ターンで長いメッセージではなく、可読性のためのいくつかの短いメッセージが順次送信されることが多い。
本稿では,エージェントが待機するか,直接応答するかを決定するのに役立つ,新しいImagine-then-Arbitrate(ITA)ニューラルダイアログモデルを提案する。
論文 参考訳(メタデータ) (2020-02-22T04:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。