論文の概要: Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
- arxiv url: http://arxiv.org/abs/2505.02156v2
- Date: Tue, 06 May 2025 09:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 12:42:37.964367
- Title: Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents
- Title(参考訳): 社会的エージェントのための強化学習による適応的思考
- Authors: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao,
- Abstract要約: 社会的インテリジェンスシミュレーションでは、言語エージェントが推論深度を動的に調整する必要がある。
我々は、リアルタイムコンテキストに基づいて4つの思考モードから戦略的に選択する$textbfA$daptive $textbfM$ode $textbfL$(textbfAML$)を提案する。
私たちのフレームワークのコアイノベーションは、$textbfA$daptive $textbfM$ode $textbfP$olicy $textbfO$ptimization$textbfAMPO$
- 参考スコア(独自算出の注目度): 75.3092060637826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$) that strategically selects from four thinking modes (intuitive reaction $\rightarrow$ deep contemplation) based on real-time context. Our framework's core innovation, the $\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO's fixed-depth approach.
- Abstract(参考訳): 効果的な社会知能シミュレーションでは、言語エージェントが推論の深さを動的に調整する必要がある。
既存の手法ではこのような推論能力が欠如しているか、すべてのシナリオに一様に長い連鎖推論を強制しているため、トークンの過剰使用や不適切な社会シミュレーションが生じる。
本稿では,4つの思考モード(直感的反応$\rightarrow$deep contemplation)から,リアルタイムのコンテキストに基づいて戦略的に選択する,$\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning$\textbf{AML}$)を提案する。
私たちのフレームワークのコアイノベーションである$\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization $\textbf{AMPO}$)アルゴリズムは、既存のメソッドに対する3つの重要な進歩を紹介している。
ソーシャルインテリジェンスタスクに関する大規模な実験は、AMLが最先端の手法よりも15.6%高いタスクパフォーマンスを達成することを確認した。
特に,本手法はGRPOを7.0%,32.8%短い推論鎖より優れていた。
これらの結果は、AMPOで実装された文脈依存型思考モードの選択により、GRPOの固定深度アプローチよりも人間的な適応推論が可能であることを示している。
関連論文リスト
- Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - When Debate Fails: Bias Reinforcement in Large Language Models [28.36216398327389]
大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文 参考訳(メタデータ) (2025-03-21T02:51:30Z) - MetaScale: Test-Time Scaling with Evolving Meta-Thoughts [51.35594569020857]
実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
論文 参考訳(メタデータ) (2025-03-17T17:59:54Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
正しい$P$を見つけることは、推論プロセスの空間上の最適化問題として表すことができる。
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T13:15:01Z) - Reinforcement Learning from Human Feedback with Active Queries [59.855433734053555]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発された問合せ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。