論文の概要: Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2211.01602v1
- Date: Thu, 3 Nov 2022 06:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:21:33.904875
- Title: Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration
- Title(参考訳): 最適な行動優先:人間とaiのコラボレーションを改善するためのデータ効率の良い人間モデル
- Authors: Mesut Yang, Micah Carroll, Anca Dragan
- Abstract要約: 人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 0.5524804393257919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents designed to collaborate with people benefit from models that enable
them to anticipate human behavior. However, realistic models tend to require
vast amounts of human data, which is often hard to collect. A good prior or
initialization could make for more data-efficient training, but what makes for
a good prior on human behavior? Our work leverages a very simple assumption:
people generally act closer to optimal than to random chance. We show that
using optimal behavior as a prior for human models makes these models vastly
more data-efficient and able to generalize to new environments. Our intuition
is that such a prior enables the training to focus one's precious real-world
data on capturing the subtle nuances of human suboptimality, instead of on the
basics of how to do the task in the first place. We also show that using these
improved human models often leads to better human-AI collaboration performance
compared to using models based on real human data alone.
- Abstract(参考訳): aiエージェントは、人間の行動を予測するモデルから利益を得るように設計された。
しかし、現実的なモデルは膨大な量の人間データを必要とする傾向があるため、収集が難しいことが多い。
優れた事前化や初期化によって、データ効率のよいトレーニングが可能になるかも知れません。
一般的に、人々はランダムな機会よりも最適に振る舞う。
人間のモデルに先立って最適な行動を用いることで、これらのモデルがデータ効率が大幅に向上し、新しい環境に一般化できることを示す。
我々の直感は、そのような事前の訓練によって、そもそもどのようにタスクを行うかの基礎ではなく、人間の準最適性の微妙なニュアンスを捉えることに集中することができるということです。
また、これらの改良された人間モデルを使用することで、実際の人間データのみに基づくモデルを使用する場合と比較して、人間とAIのコラボレーション性能が向上することを示す。
関連論文リスト
- Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models [5.736353542430439]
本稿では,Boltzmann Policy Distribution(BPD)を紹介する。
BPDはベイズ推論を介して適応し、1回のエピソードで人間の行動を観察することで系統的な偏差を捉える。
我々は,BPDが人間行動の予測と人間-AI協調を可能にすると同時に,模倣学習に基づく人間モデルも可能であることを示す。
論文 参考訳(メタデータ) (2022-04-22T15:26:25Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - Humans learn too: Better Human-AI Interaction using Optimized Human
Inputs [2.5991265608180396]
人間はますますAIコンポーネントを持つシステムに依存している。
AIコミュニティは通常、人間の入力を与えられたものとして扱い、AIモデルのみを最適化する。
この作業では、モデルの修正を維持しながら、AIモデルとのより優れたインタラクションのために、人間の入力が最適化される。
論文 参考訳(メタデータ) (2020-09-19T16:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。