論文の概要: Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
- arxiv url: http://arxiv.org/abs/2505.02156v1
- Date: Sun, 04 May 2025 15:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.456603
- Title: Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
- Title(参考訳): 社会的エージェントのための強化学習による適応的思考
- Authors: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao,
- Abstract要約: 社会的インテリジェンスシミュレーションでは、言語エージェントが推論深度を動的に調整する必要がある。
我々は、リアルタイムコンテキストに基づいて4つの思考モードから戦略的に選択する$textbfA$daptive $textbfM$ode $textbfL$(textbfAML$)を提案する。
私たちのフレームワークのコアイノベーションは、$textbfA$daptive $textbfM$ode $textbfP$olicy $textbfO$ptimization$textbfAMPO$
- 参考スコア(独自算出の注目度): 75.3092060637826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$) that strategically selects from four thinking modes (intuitive reaction $\rightarrow$ deep contemplation) based on real-time context. Our framework's core innovation, the $\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach
- Abstract(参考訳): 効果的な社会知能シミュレーションでは、言語エージェントが推論の深さを動的に調整する必要がある。
既存の手法ではこのような推論能力が欠如しているか、すべてのシナリオに一様に長い連鎖推論を強制しているため、トークンの過剰使用や不適切な社会シミュレーションが生じる。
本稿では,4つの思考モード(直感的反応$\rightarrow$deep contemplation)から,リアルタイムのコンテキストに基づいて戦略的に選択する,$\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning$\textbf{AML}$)を提案する。
私たちのフレームワークのコアイノベーションである$\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization $\textbf{AMPO}$)アルゴリズムは、既存のメソッドに対する3つの重要な進歩を紹介している。
ソーシャルインテリジェンスタスクに関する大規模な実験は、AMLが最先端の手法よりも15.6%高いタスクパフォーマンスを達成することを確認した。
特に,本手法はGRPOを7.0%,32.8%短い推論鎖より優れていた。
これらの結果は、AMPOで実装された文脈依存型思考モードの選択により、GRPOの固定深度アプローチよりも人間的な適応推論が可能であることを示している。
関連論文リスト
- When Debate Fails: Bias Reinforcement in Large Language Models [28.36216398327389]
大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文 参考訳(メタデータ) (2025-03-21T02:51:30Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。