論文の概要: Humans learn too: Better Human-AI Interaction using Optimized Human
Inputs
- arxiv url: http://arxiv.org/abs/2009.09266v1
- Date: Sat, 19 Sep 2020 16:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:00:27.650060
- Title: Humans learn too: Better Human-AI Interaction using Optimized Human
Inputs
- Title(参考訳): 人間も学ぶ:最適化された人間の入力を用いたより良い人間-AIインタラクション
- Authors: Johannes Schneider
- Abstract要約: 人間はますますAIコンポーネントを持つシステムに依存している。
AIコミュニティは通常、人間の入力を与えられたものとして扱い、AIモデルのみを最適化する。
この作業では、モデルの修正を維持しながら、AIモデルとのより優れたインタラクションのために、人間の入力が最適化される。
- 参考スコア(独自算出の注目度): 2.5991265608180396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans rely more and more on systems with AI components. The AI community
typically treats human inputs as a given and optimizes AI models only. This
thinking is one-sided and it neglects the fact that humans can learn, too. In
this work, human inputs are optimized for better interaction with an AI model
while keeping the model fixed. The optimized inputs are accompanied by
instructions on how to create them. They allow humans to save time and cut on
errors, while keeping required changes to original inputs limited. We propose
continuous and discrete optimization methods modifying samples in an iterative
fashion. Our quantitative and qualitative evaluation including a human study on
different hand-generated inputs shows that the generated proposals lead to
lower error rates, require less effort to create and differ only modestly from
the original samples.
- Abstract(参考訳): 人間はますますAIコンポーネントを持つシステムに依存している。
AIコミュニティは通常、人間の入力を与えられたものとして扱い、AIモデルのみを最適化する。
この考え方は一方的であり、人間が学習できるという事実も無視している。
この作業では、人間の入力はモデルを修正しながら、aiモデルとのインタラクションを改善するために最適化されます。
最適化された入力には、それらを作成する方法の指示が伴います。
人間が時間を節約し、エラーを減らすことができるが、元の入力に必要となる変更は限られている。
サンプルを反復的に修正する連続的および離散的な最適化手法を提案する。
人間の手書き入力に対する人間の研究を含む定量的・定性的な評価は、生成された提案がエラー率を低下させ、元のサンプルと控えめにしか作らないことを示します。
関連論文リスト
- Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - Constitutional AI: Harmlessness from AI Feedback [19.964791766072132]
我々は、自己改善を通じて無害なAIアシスタントを訓練する手法を実験した。
人間の監視はルールや原則の一覧を通じてのみ提供される。
私たちは、有害なクエリに対処する、無害だが回避できないAIアシスタントをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-12-15T06:19:23Z) - Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration [0.5524804393257919]
人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-11-03T06:10:22Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Uncalibrated Models Can Improve Human-AI Collaboration [10.106324182884068]
私たちは、AIモデルを実際によりも自信を持って提示することで、人間-AIのパフォーマンスが向上することを示した。
私たちはまず、何千もの人間のインタラクションのデータを使って、人間がAIアドバイスを組み込む方法のモデルを学びます。
論文 参考訳(メタデータ) (2022-02-12T04:51:00Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。