Fugu-MT 論文翻訳(概要): FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots

論文の概要: FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots

arxiv url: http://arxiv.org/abs/2311.15327v5
Date: Fri, 13 Sep 2024 06:53:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 23:47:01.682843
Title: FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots
Title（参考訳）: FRAC-Q-Learning:社会ロボットのためのボレドム回避プロセスによる強化学習
Authors: Akinari Onishi,
Abstract要約: 本稿では,ソーシャルロボットであるFRAC-Q学習に特化した新しい強化学習手法を提案する。提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The reinforcement learning algorithms have often been applied to social robots. However, most reinforcement learning algorithms were not optimized for the use of social robots, and consequently they may bore users. We proposed a new reinforcement learning method specialized for the social robot, the FRAC-Q-learning, that can avoid user boredom. The proposed algorithm consists of a forgetting process in addition to randomizing and categorizing processes. This study evaluated interest and boredom hardness scores of the FRAC-Q-learning by a comparison with the traditional Q-learning. The FRAC-Q-learning showed significantly higher trend of interest score, and indicated significantly harder to bore users compared to the traditional Q-learning. Therefore, the FRAC-Q-learning can contribute to develop a social robot that will not bore users. The proposed algorithm has a potential to apply for Web-based communication and educational systems. This paper presents the entire process, detailed implementation and a detailed evaluation method of the of the FRAC-Q-learning for the first time.
Abstract（参考訳）: 強化学習アルゴリズムはしばしば社会ロボットに適用されている。しかし、ほとんどの強化学習アルゴリズムはソーシャルロボットの使用に最適化されておらず、従ってユーザを惹きつける可能性がある。我々は,ソーシャルロボットであるFRAC-Q学習に特化した新しい強化学習手法を提案した。提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。本研究は,従来のQ-ラーニングとの比較により,FRAC-Q-ラーニングの関心度と退屈度スコアを評価した。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。そのため、FRAC-Q学習は、ユーザーを困らせない社会ロボットの開発に寄与することができる。提案アルゴリズムは、Webベースのコミュニケーションと教育システムに適用できる可能性がある。本稿では,FRAC-Q学習のプロセス全体,詳細な実装,詳細な評価方法について述べる。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence [62.21106561772784]
時空間認識型階層型認知強化学習(TimeHC-RL)を導入し,大規模言語モデルの社会的知性を高める。実験の結果, 広く採用されているSystem 2 RL法と比較して, 提案したTimeHC-RL法の方が優れていることがわかった。 7Bのバックボーンモデルウィングが提供され、DeepSeek-R1やOpenAI-O3といった高度なモデルのパフォーマンスに匹敵する。
論文参考訳（メタデータ） (2025-05-30T12:01:06Z)
Enhancing tutoring systems by leveraging tailored promptings and domain knowledge with Large Language Models [2.5362697136900563]
ChatGPTやIntelligent Tutoring Systems(ITS)といったAI駆動のツールは、パーソナライゼーションと柔軟性を通じて、学習エクスペリエンスを向上している。 ITSは、個々の学習ニーズに適応し、生徒のパフォーマンス、認知状態、学習パスに基づいてカスタマイズされたフィードバックを提供する。我々の研究は,大規模言語モデル(LLM)の迅速な工学化にRAG(Retrieval Augmented Generation)を介して,スキルアラインなフィードバックを組み込むことによって,これらのギャップに対処することを目的としている。
論文参考訳（メタデータ） (2025-05-02T02:30:39Z)
SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文参考訳（メタデータ） (2024-10-23T17:42:07Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Online Context Learning for Socially-compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文参考訳（メタデータ） (2024-06-17T12:59:13Z)
Coupling Machine Learning with Ontology for Robotics Applications [0.0]
動的シナリオにおける事前知識の可用性の欠如は、間違いなくスケーラブルなマシンインテリジェンスにとって大きな障壁である。二つの階層間の相互作用についての私の見解は、知識が知識ベース層で容易に利用できない場合、他の階層からより多くの知識を抽出できるという考えに基づいている。
論文参考訳（メタデータ） (2024-06-08T23:38:03Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文参考訳（メタデータ） (2023-09-15T02:42:03Z)
Don't Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2022-07-11T08:31:22Z)
Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文参考訳（メタデータ） (2022-02-21T21:50:50Z)
Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning and Online Planning [8.211771115758381]
これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。深層強化学習はこの問題に対する有望な解決策である。グラフに基づく深部強化学習手法SG-DQNを提案する。私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
論文参考訳（メタデータ） (2021-02-26T02:17:13Z)
A Novel Update Mechanism for Q-Networks Based On Extreme Learning Machines [0.6445605125467573]
EQLM(Extreme Q-Learning Machine)は、勾配に基づく更新と同じ方法で強化学習問題に適用される。我々はその性能を、カートポールタスクにおける典型的なQ-Networkと比較する。 EQLMはQ-Networkと同様の長期学習性能を持つことを示す。
論文参考訳（メタデータ） (2020-06-04T16:16:13Z)
Augmented Q Imitation Learning (AQIL) [20.909770125018564]
模倣学習では、機械はエキスパートシステムの振舞いを模倣して学習するが、強化学習では直接的な環境フィードバックを通じて学習する。本稿では,強化学習の収束を加速する手法であるAugmented Q-Imitation-Learningを提案する。
論文参考訳（メタデータ） (2020-03-31T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。