論文の概要: The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types
- arxiv url: http://arxiv.org/abs/2208.10687v1
- Date: Tue, 23 Aug 2022 02:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:38:24.072816
- Title: The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types
- Title(参考訳): 人的合理性のモデル化が複数フィードバック型からの学習報酬に及ぼす影響
- Authors: Gaurav R. Ghosal, Matthew Zurek, Daniel S. Brown, Anca D. Dragan
- Abstract要約: フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
- 参考スコア(独自算出の注目度): 38.37216644899506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When inferring reward functions from human behavior (be it demonstrations,
comparisons, physical corrections, or e-stops), it has proven useful to model
the human as making noisy-rational choices, with a "rationality coefficient"
capturing how much noise or entropy we expect to see in the human behavior.
Many existing works have opted to fix this coefficient regardless of the type,
or quality, of human feedback. However, in some settings, giving a
demonstration may be much more difficult than answering a comparison query. In
this case, we should expect to see more noise or suboptimality in
demonstrations than in comparisons, and should interpret the feedback
accordingly. In this work, we advocate that grounding the rationality
coefficient in real data for each feedback type, rather than assuming a default
value, has a significant positive effect on reward learning. We test this in
experiments with both simulated feedback, as well a user study. We find that
when learning from a single feedback type, overestimating human rationality can
have dire effects on reward accuracy and regret. Further, we find that the
rationality level affects the informativeness of each feedback type:
surprisingly, demonstrations are not always the most informative -- when the
human acts very suboptimally, comparisons actually become more informative,
even when the rationality level is the same for both. Moreover, when the robot
gets to decide which feedback type to ask for, it gets a large advantage from
accurately modeling the rationality level of each type. Ultimately, our results
emphasize the importance of paying attention to the assumed rationality level,
not only when learning from a single feedback type, but especially when agents
actively learn from multiple feedback types.
- Abstract(参考訳): 人間の行動(デモンストレーション、比較、物理的修正、eストップなど)から報酬関数を推測する場合、人間の行動にどれだけのノイズやエントロピーが期待できるかを捉える「合理性係数」を用いて、ノイズ有理選択を行うと人間をモデル化することは有用であることが証明されている。
既存の作品の多くは、人間のフィードバックの種類や質に関わらず、この係数を修正することを選んだ。
しかし、いくつかの設定では、比較クエリに答えるよりもデモを行う方がずっと難しい場合がある。
この場合、実演では比較よりもノイズや過小評価が期待でき、それに応じてフィードバックを解釈すべきである。
本研究では,既定値ではなく,フィードバックタイプ毎の実データに有理性係数を基礎づけることが,報酬学習に有意な影響を与えることを提唱する。
シミュレーションフィードバックとユーザスタディの両方を用いて,これを実験でテストする。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じる。
さらに、合理性レベルが各フィードバックのインフォメーションに影響を与えていることが判明した。 驚くべきことに、デモンストレーションは必ずしも最も有益ではない -- 人間が非常に最適に振る舞うと、合理性レベルが両方とも同じであっても、比較は実際より有益になる。
さらに、ロボットが要求するフィードバックタイプを決定すると、各タイプの合理性レベルを正確にモデル化することで大きな利点が得られる。
結論として,1つのフィードバックタイプから学習するだけでなく,特にエージェントが複数のフィードバックタイプから積極的に学習する場合において,仮定された合理性レベルに注意を払うことの重要性を強調した。
関連論文リスト
- Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception [53.4840989321394]
我々は,QAモデルが生成した有理性の効果を分析し,その答えを支持する。
ユーザに対して,様々な形式で誤った回答とそれに対応する有理性を提示する。
このフィードバックの有効性を,文脈内学習を通じて評価する。
論文 参考訳(メタデータ) (2023-11-16T04:26:32Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - Human irrationality: both bad and good for reward inference [3.706222947143855]
この研究は、不合理性が報酬推論に与える影響をよりよく理解することを目的としている。
MDPの言語における不合理性を、ベルマンの最適性方程式を変化させて操作する。
不合理な人間は、正しくモデル化された場合、完全に合理的な人間よりも報酬に関する情報を伝達できることが示される。
論文 参考訳(メタデータ) (2021-11-12T21:44:15Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Reward-rational (implicit) choice: A unifying formalism for reward
learning [35.57436895497646]
研究者は人間の行動やフィードバックから報酬関数を学習することを目指している。
近年、報酬関数の証拠として解釈される行動の種類は大幅に拡大している。
ロボットは、こうした多様な振る舞いをどう理解するのか?
論文 参考訳(メタデータ) (2020-02-12T08:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。