論文の概要: Contrastive Learning from Exploratory Actions: Leveraging Natural Interactions for Preference Elicitation
- arxiv url: http://arxiv.org/abs/2501.01367v1
- Date: Thu, 02 Jan 2025 17:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:19.778566
- Title: Contrastive Learning from Exploratory Actions: Leveraging Natural Interactions for Preference Elicitation
- Title(参考訳): 探索行動からのコントラスト学習--自然相互作用の活用
- Authors: Nathaniel Dennler, Stefanos Nikolaidis, Maja Matarić,
- Abstract要約: 探索行動(CLEA)からの対照的な学習を提案する。
CLEAは、完全性、単純性、最小性、説明可能性という4つの指標よりもユーザの好みを引き出す際に、より優れた自己管理機能を備えている。
- 参考スコア(独自算出の注目度): 6.033491390990401
- License:
- Abstract: People have a variety of preferences for how robots behave. To understand and reason about these preferences, robots aim to learn a reward function that describes how aligned robot behaviors are with a user's preferences. Good representations of a robot's behavior can significantly reduce the time and effort required for a user to teach the robot their preferences. Specifying these representations -- what "features" of the robot's behavior matter to users -- remains a difficult problem; Features learned from raw data lack semantic meaning and features learned from user data require users to engage in tedious labeling processes. Our key insight is that users tasked with customizing a robot are intrinsically motivated to produce labels through exploratory search; they explore behaviors that they find interesting and ignore behaviors that are irrelevant. To harness this novel data source of exploratory actions, we propose contrastive learning from exploratory actions (CLEA) to learn trajectory features that are aligned with features that users care about. We learned CLEA features from exploratory actions users performed in an open-ended signal design activity (N=25) with a Kuri robot, and evaluated CLEA features through a second user study with a different set of users (N=42). CLEA features outperformed self-supervised features when eliciting user preferences over four metrics: completeness, simplicity, minimality, and explainability.
- Abstract(参考訳): 人々はロボットの振る舞いに対してさまざまな好みを持っています。
これらの嗜好を理解し、推論するために、ロボットはユーザの嗜好と整合したロボットの行動がどのように関連しているかを記述する報酬関数を学習することを目指している。
ロボットの振る舞いのよい表現は、ユーザがロボットに好みを教えるのに必要な時間と労力を大幅に削減することができる。
生のデータから学習した特徴には意味がなく、ユーザデータから学んだ特徴には、退屈なラベル付けプロセスに従事する必要がある。
私たちの重要な洞察は、ロボットのカスタマイズに携わるユーザは、探索的な探索を通してラベルを作るという本質的な動機があるということです。
探索行動の新たなデータソースを活用するために,探索行動(CLEA)からのコントラスト学習を提案し,ユーザが関心を持つ特徴に対応する軌道特徴を学習する。
我々は,クリロボットを用いたオープンエンド信号設計活動(N=25)で実施した探索行動からCLEAの特徴を学習し,異なるユーザ群(N=42)による第2のユーザスタディ(N=42)によりCLEAの特徴を評価する。
CLEAは、完全性、単純性、最小性、説明可能性という4つの指標よりもユーザの好みを引き出す際に、より優れた自己管理機能を備えている。
関連論文リスト
- Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots [5.523009758632668]
CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
論文 参考訳(メタデータ) (2024-11-17T21:52:58Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Rethinking Annotator Simulation: Realistic Evaluation of Whole-Body PET Lesion Interactive Segmentation Methods [26.55942230051388]
実際のユーザスタディやシミュレートされたアノテータによる対話的セグメンテーションモデルの評価を行う。
実際のユーザスタディは高価で大規模に制限されることが多いが、シミュレーションアノテータ(ロボットユーザとしても知られる)はモデルパフォーマンスを過大評価する傾向がある。
本稿では,クリック変動やアノテータ間の不一致といった人間的要因を取り入れた,より現実的なロボットユーザを提案する。
論文 参考訳(メタデータ) (2024-04-02T10:19:17Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - Learning Reward Functions from Scale Feedback [11.941038991430837]
一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。
シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-10-01T09:45:18Z) - How to select and use tools? : Active Perception of Target Objects Using
Multimodal Deep Learning [9.677391628613025]
我々は,ロボットが物体と相互作用する間,マルチモーダル感覚運動子データを用いた能動的知覚に焦点を当てた。
物体の特徴を認識することを学ぶディープニューラルネットワーク(DNN)モデルを構築した。
また, 画像, 力, 触覚データのコントリビューションについても検討し, 多様なマルチモーダル情報を学習することで, ツール使用に対する認知度が向上することを示す。
論文 参考訳(メタデータ) (2021-06-04T12:49:30Z) - A Neural Topical Expansion Framework for Unstructured Persona-oriented
Dialogue Generation [52.743311026230714]
Persona Exploration and Exploitation (PEE)は、事前に定義されたユーザペルソナ記述を意味論的に相関したコンテンツで拡張することができる。
PEEはペルソナ探索とペルソナ搾取という2つの主要なモジュールで構成されている。
提案手法は, 自動評価と人的評価の両面で, 最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-06T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。