論文の概要: HAPI: A Model for Learning Robot Facial Expressions from Human Preferences
- arxiv url: http://arxiv.org/abs/2503.17046v1
- Date: Fri, 21 Mar 2025 11:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:47.607059
- Title: HAPI: A Model for Learning Robot Facial Expressions from Human Preferences
- Title(参考訳): HAPI:人間の嗜好からロボットの表情を学習するモデル
- Authors: Dongsheng Yang, Qianying Liu, Wataru Sato, Takashi Minato, Chaoran Liu, Shin'ya Nishida,
- Abstract要約: 本稿では,この相違に対処するために,人間のフィードバックを活用する新しい学習 to ランクフレームワークを提案する。
提案手法は,アンガー,幸福,サプライズをベースラインや専門家が設計した手法よりもはるかに現実的で社会的に共鳴する表現を生成する。
- 参考スコア(独自算出の注目度): 4.250785086838609
- License:
- Abstract: Automatic robotic facial expression generation is crucial for human-robot interaction, as handcrafted methods based on fixed joint configurations often yield rigid and unnatural behaviors. Although recent automated techniques reduce the need for manual tuning, they tend to fall short by not adequately bridging the gap between human preferences and model predictions-resulting in a deficiency of nuanced and realistic expressions due to limited degrees of freedom and insufficient perceptual integration. In this work, we propose a novel learning-to-rank framework that leverages human feedback to address this discrepancy and enhanced the expressiveness of robotic faces. Specifically, we conduct pairwise comparison annotations to collect human preference data and develop the Human Affective Pairwise Impressions (HAPI) model, a Siamese RankNet-based approach that refines expression evaluation. Results obtained via Bayesian Optimization and online expression survey on a 35-DOF android platform demonstrate that our approach produces significantly more realistic and socially resonant expressions of Anger, Happiness, and Surprise than those generated by baseline and expert-designed methods. This confirms that our framework effectively bridges the gap between human preferences and model predictions while robustly aligning robotic expression generation with human affective responses.
- Abstract(参考訳): ロボットによる表情の自動生成は人間とロボットの相互作用に不可欠であり、固定された関節構成に基づく手作りの手法は、しばしば厳格で不自然な振る舞いをもたらす。
近年の自動化技術は手動チューニングの必要性を減らしているが、人間の嗜好とモデル予測のギャップを適切に埋めることができず、自由度が制限され、知覚統合が不十分なため、ニュアンス表現と現実表現の欠如を補う傾向にある。
本研究では,この不一致に対処し,ロボット顔の表現力を高めるために,人間のフィードバックを活用する新しい学習 to ランクフレームワークを提案する。
具体的には、人間の嗜好データをペアワイズ比較アノテーションで収集し、表現評価を洗練させるシームズ・ランクネットに基づくアプローチであるHuman Affective Pairwise Impressions(HAPI)モデルを開発する。
ベイジアン最適化および35-DOFアンドロイドプラットフォーム上でのオンライン表現調査により,本手法は,アンガー,幸福,サプライズをベースラインおよび専門家が設計した手法よりも,はるかに現実的で社会的に共鳴する表現を生み出すことが示された。
これにより,人間の嗜好とモデル予測のギャップを効果的に埋めると同時に,ロボット表現生成と人間の感情的反応をしっかりと整合させることが確かめられる。
関連論文リスト
- DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。
我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-01-28T09:05:03Z) - Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation [16.809190349155525]
そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,ドメインギャップを埋める新しい適応パラダイムを提案する。
提案手法では,人間とロボットのビデオのセマンティクスを整列させるために,人間ロボットのアライメント損失を用いて,事前学習したモデルをパラメータ効率よくロボット領域に適応させる。
論文 参考訳(メタデータ) (2024-06-20T11:57:46Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Enhanced Human-Robot Collaboration using Constrained Probabilistic
Human-Motion Prediction [5.501477817904299]
本研究では,人間の関節の制約とシーンの制約を組み込んだ新しい動き予測フレームワークを提案する。
人間の腕のキネマティックモデルでテストされ、UR5ロボットアームと人間とロボットの協調的な設定で実装されている。
論文 参考訳(メタデータ) (2023-10-05T05:12:14Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Hyperparameters optimization for Deep Learning based emotion prediction
for Human Robot Interaction [0.2549905572365809]
インセプションモジュールをベースとした畳み込みニューラルネットワークアーキテクチャを提案する。
モデルは人型ロボットNAOにリアルタイムに実装され、モデルの堅牢性を評価する。
論文 参考訳(メタデータ) (2020-01-12T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。