論文の概要: Human Strategic Steering Improves Performance of Interactive
Optimization
- arxiv url: http://arxiv.org/abs/2005.01291v1
- Date: Mon, 4 May 2020 06:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:31:13.940401
- Title: Human Strategic Steering Improves Performance of Interactive
Optimization
- Title(参考訳): ヒューマンストラテジックステアリングによる対話最適化の性能向上
- Authors: Fabio Colella, Pedram Daee, Jussi Jokinen, Antti Oulasvirta, Samuel
Kaski
- Abstract要約: 推奨システムでは、何を推奨するかを選択し、最適化タスクはユーザーが推奨するアイテムを推薦する。
我々は、この基本的な仮定は、受動的フィードバック源ではない人間のユーザーによって広範囲に侵害される可能性があると論じる。
我々は,人間と最適化アルゴリズムが協調して1次元関数の最大値を求める機能最適化タスクを設計した。
- 参考スコア(独自算出の注目度): 33.54512897507445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central concern in an interactive intelligent system is optimization of its
actions, to be maximally helpful to its human user. In recommender systems for
instance, the action is to choose what to recommend, and the optimization task
is to recommend items the user prefers. The optimization is done based on
earlier user's feedback (e.g. "likes" and "dislikes"), and the algorithms
assume the feedback to be faithful. That is, when the user clicks "like," they
actually prefer the item. We argue that this fundamental assumption can be
extensively violated by human users, who are not passive feedback sources.
Instead, they are in control, actively steering the system towards their goal.
To verify this hypothesis, that humans steer and are able to improve
performance by steering, we designed a function optimization task where a human
and an optimization algorithm collaborate to find the maximum of a
1-dimensional function. At each iteration, the optimization algorithm queries
the user for the value of a hidden function $f$ at a point $x$, and the user,
who sees the hidden function, provides an answer about $f(x)$. Our study on 21
participants shows that users who understand how the optimization works,
strategically provide biased answers (answers not equal to $f(x)$), which
results in the algorithm finding the optimum significantly faster. Our work
highlights that next-generation intelligent systems will need user models
capable of helping users who steer systems to pursue their goals.
- Abstract(参考訳): 対話型インテリジェントシステムにおける中心的な関心事は、その行動の最適化であり、人間のユーザにとって最大限に有用である。
例えばレコメンデーションシステムでは、何を推奨するかを選択し、最適化タスクはユーザーが推奨するアイテムを推薦する。
最適化は初期のユーザのフィードバック(例えば "likes" や "dislikes" など)に基づいて行われ、アルゴリズムはフィードバックが忠実であると仮定する。
つまり、ユーザが"like"をクリックすると、実際にはそのアイテムが好まれます。
我々は、この基本的な仮定は、受動的フィードバック源ではない人間のユーザーによって広範囲に侵害される可能性があると論じる。
その代わり、彼らはコントロールされ、積極的にシステムを目標に向けて運営します。
この仮説を検証するために,人間と最適化アルゴリズムが協調して1次元関数の最大値を求める関数最適化タスクを考案した。
各イテレーションにおいて、最適化アルゴリズムは、あるポイント$x$で隠れた関数の値をユーザにクエリし、隠れた関数を見たユーザは、$f(x)$に関する回答を提供する。
21名の被験者を対象にした研究では,最適化の仕組みを理解したユーザが,偏りのある回答($f(x)$ に等しくない回答)を戦略的に提供できることが示されている。
私たちの研究は、次世代のインテリジェントシステムには、システムの目標達成を支援するユーザモデルが必要です。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Cooperative Bayesian Optimization for Imperfect Agents [32.15315995944448]
2つのエージェントは、関数を問合せするポイントを一緒に選ぶが、それぞれ1つの変数だけを制御する。
提案手法を逐次意思決定として定式化し,制御するエージェントは,関数に関する事前知識を持つ計算的合理的なエージェントとしてユーザをモデル化する。
本研究では,ユーザが過剰な探索を避ける限り,クエリの戦略的計画により,関数のグローバルな最大値の同定がより容易であることを示す。
論文 参考訳(メタデータ) (2024-03-07T12:16:51Z) - Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。
ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。
注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T14:18:15Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Optimizing Algorithms From Pairwise User Preferences [23.87058308494074]
ペアワイズユーザの好みに基づいて,アルゴリズムパラメータの高次元設定を最適化するために,SortCMAを導入する。
本手法は,地上の真実を示さずに市販の深度センサをチューニングし,ロボットのソーシャルナビゲーションに応用する。
論文 参考訳(メタデータ) (2023-08-08T20:36:59Z) - DeepHive: A multi-agent reinforcement learning approach for automated
discovery of swarm-based optimization policies [0.0]
Swarm内の各エージェントの状態は、設計空間内の現在の位置と関数値として定義される。
提案手法は,様々なベンチマーク最適化関数を用いて検証し,他のグローバル最適化手法との比較を行った。
論文 参考訳(メタデータ) (2023-03-29T18:08:08Z) - Judging Adam: Studying the Performance of Optimization Methods on ML4SE
Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。
Anaheadの選択は、モデルの品質に大きな影響を与えます。
ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文 参考訳(メタデータ) (2023-03-06T22:49:20Z) - Experience in Engineering Complex Systems: Active Preference Learning
with Multiple Outcomes and Certainty Levels [1.5257326975704795]
ブラックボックス最適化とは、目的関数と/または制約集合が未知、到達不能、あるいは存在しない問題を指す。
この特定の情報を活用するために、いわゆるActive Preference Learningと呼ばれるアルゴリズムが開発された。
我々のアプローチは、さらなる情報を効果的に活用できるような方法でアルゴリズムを拡張することを目的としている。
論文 参考訳(メタデータ) (2023-02-27T15:55:37Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。