論文の概要: Echo-N1: Affective RL Frontier
- arxiv url: http://arxiv.org/abs/2512.00344v1
- Date: Sat, 29 Nov 2025 06:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.184007
- Title: Echo-N1: Affective RL Frontier
- Title(参考訳): Echo-N1: 影響のあるRLフロンティア
- Authors: Naifan Zhang, Ruihan Sun, Ruixi Su, Shiqi Ma, Shiya Zhang, Xianna Weng, Xiaofan Zhang, Yuhan Zhan, Yuyang Xu, Zhaohan Chen, Zhengyuan Pan, Ziyi Song,
- Abstract要約: LLMフィールドは、すでに数学、コード、決定論的推論に優れるタスクマシンのためのRLを完成させるのに1年を費やしている。
可能なだけでなく、解決可能かつ変換可能なRL問題であることを示す。
本研究では,ユーザの個性をその場で推測し,パーソナライズされた会話の嗜好に対するモデル行動の最適化を行う最初のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.962118821001294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LLM field has spent a year perfecting RL for tasks machines already excel at, math, code, and deterministic reasoning, while completely sidestepping the domain that actually defines human intelligence: subjective, emotionally grounded, personality sensitive conversation. This space has often been regarded as inherently subjective and challenging to formalize, making it appear unsuitable for conventional RL pipelines. We show that it is not only possible and it is a solvable and transformative RL problem. We propose the first framework that infers user personality on the fly and optimizes model behavior toward personalized conversational preferences. Contrary to the widespread belief that RL collapses in non-verifiable settings, our method produces consistent, robust, and dramatic improvements in humanlike interaction quality. We also introduce the first dynamic emotional intelligence evaluation suite to quantify these gains. Our model, which is introduced as Echo-N1, behaves far above its base version and outperforming the proprietary Doubao 1.5 Character. This work establishes a new frontier for RL: optimizing models for the deeply subjective, deeply human dimensions of conversation.
- Abstract(参考訳): LLMの分野は、1年間、すでに数学、コード、決定論的推論に精通しているタスクマシンのためのRLを完成させてきました。
この空間は本質的に主観的で形式化が難しいと考えられており、従来のRLパイプラインには適さないように見える。
可能なだけでなく、解決可能かつ変換可能なRL問題であることを示す。
本研究では,ユーザの個性をその場で推測し,パーソナライズされた会話の嗜好に対するモデル行動の最適化を行う最初のフレームワークを提案する。
検証不能な環境でRLが崩壊するという広く信じられているのとは対照的に,本手法は人間に近いインタラクション品質の一貫性,堅牢性,劇的な改善をもたらす。
また、これらの利得を定量化する最初の動的感情知能評価スイートについても紹介する。
われわれのモデルはEcho-N1として紹介され、ベースバージョンよりはるかに上回っており、Doubao 1.5 Characterよりも優れています。
この研究はRLの新しいフロンティアを確立し、会話の深い主観的、深い人間の次元のモデルを最適化する。
関連論文リスト
- Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization [20.732922711530527]
マクロアクション量子化(Macro Action Quantization,MAQ)は、人間のデモをマクロアクションに蒸留する人間のような強化学習フレームワークである。
D4RL Adroitベンチマークの実験では、MAQは人間の類似性を大幅に改善し、軌道類似性スコアを増大させ、RLエージェントの中で最も高い人間類似性ランキングを達成している。
また,MAQは市販のRLアルゴリズムに容易に組み込むことができ,人間的なRLエージェントを学習する上で有望な方向を導出できることを示した。
論文 参考訳(メタデータ) (2025-11-19T02:59:47Z) - The Era of Real-World Human Interaction: RL from User Conversations [45.2392745984914]
In-the-wild user conversation から直接学習するパラダイムである Reinforcement Learning from Human Interaction (RLHI) を紹介する。
本研究では,(1)ユーザの自然言語フォローアップ応答に基づいて不満足なモデル出力を更新するユーザガイドリライトを用いたRLHI,(2)ユーザベースリワードを用いたRLHIの2つの補完手法を開発する。
論文 参考訳(メタデータ) (2025-09-29T17:50:31Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Human-centric Dialog Training via Offline Reinforcement Learning [16.525761580699257]
オフライン強化学習アルゴリズムの新たなクラスを開発する。
オープンドメイン設定で80ユーザからのレーティングで結果のダイアログモデルをテストする。
論文 参考訳(メタデータ) (2020-10-12T16:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。