論文の概要: Adaptive Thinking via Mode Policy Optimization for Social Language Agents
- arxiv url: http://arxiv.org/abs/2505.02156v3
- Date: Tue, 20 May 2025 09:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.148917
- Title: Adaptive Thinking via Mode Policy Optimization for Social Language Agents
- Title(参考訳): 言語エージェントのためのモードポリシー最適化による適応的思考
- Authors: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao,
- Abstract要約: 動的社会的相互作用における言語エージェントの適応的思考能力を改善するための枠組みを提案する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
- 参考スコア(独自算出の注目度): 75.3092060637826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current studies. Existing methods either lack this kind of reasoning capability or enforce Long Chain-of-Thought reasoning uniformly across all scenarios, resulting in excessive token usage and inflexible social simulation. To address this, we propose an $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$) framework in this paper, aiming to improve the adaptive thinking ability of language agents in dynamic social interactions. To this end, we first identify hierarchical thinking modes ranging from intuitive response to deep deliberation based on the cognitive control theory. We then develop the $\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) algorithm to optimize the context-aware mode switching and reasoning. Our framework advances existing research in three key aspects: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence benchmarks verify that AML achieves 15.6% higher task performance than GPT-4o. Notably, our AMPO outperforms GRPO by 7.0% with 32.8% shorter reasoning chains, demonstrating the advantage of adaptive thinking mode selection and optimization mechanism in AMPO over GRPO's fixed-depth solution.
- Abstract(参考訳): 効果的な社会知能シミュレーションでは、言語エージェントが推論の深さを動的に調整する必要がある。
既存の手法にはこのような推論能力がないか、すべてのシナリオでLong Chain-of-Thought推論を均一に実施している。
そこで本稿では,動的ソーシャルインタラクションにおける言語エージェントの適応的思考能力の向上を目的とした,$\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$)フレームワークを提案する。
そこで我々はまず,直感的な応答から深い熟考まで,認知制御理論に基づく階層的思考様式を同定する。
次に、コンテキスト認識モードの切り替えと推論を最適化するために、$\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization$\textbf{AMPO}$)アルゴリズムを開発する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
ソーシャルインテリジェンスベンチマークの大規模な実験は、AMLがGPT-4oよりも15.6%高いタスクパフォーマンスを達成したことを検証している。
特に,我々のAMPOはGRPOを7.0%,32.8%の短い推論鎖で上回り,GRPOの固定深度解に対するAMPOの適応的思考モード選択と最適化機構の利点を示す。
関連論文リスト
- When Debate Fails: Bias Reinforcement in Large Language Models [28.36216398327389]
大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文 参考訳(メタデータ) (2025-03-21T02:51:30Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。