論文の概要: ALSO: Adversarial Online Strategy Optimization for Social Agents
- arxiv url: http://arxiv.org/abs/2605.15768v2
- Date: Tue, 19 May 2026 06:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.374543
- Title: ALSO: Adversarial Online Strategy Optimization for Social Agents
- Title(参考訳): ALSO: ソーシャルエージェントのための対話型オンライン戦略最適化
- Authors: Xiang Li, Liping Yi, Mingze Kong, Min Zhang, Zhongxiang Dai, QingHua Hu,
- Abstract要約: 社会シミュレーションにおけるオンライン戦略最適化のための最初のフレームワークとしてtextbfALSO (textbfAdrial ontextbfLine textbfStrategy textbfOptimization) を提案する。
ALSOは、スタティック・ペルソナとダイナミック・ストラテジー・インストラクションの組み合わせをアームとして扱う対向バンドイット問題として、マルチターンインタラクションを定式化する。
また、相互作用履歴から報酬を予測する軽量なニューラルサロゲートを導入し、サンプル効率の高い探索と継続的なオンライン適応を可能にしている。
- 参考スコア(独自算出の注目度): 63.84788516416339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social simulation provides a compelling testbed for studying social intelligence, where agents interact through multi-turn dialogues under evolving contexts and strategically adapting opponents. Such environments are inherently non-stationary, requiring agents to dynamically adjust their strategies over time. However, most Large Language Model (LLM) based social agents rely on static personas, while existing approaches for enhancing social intelligence, such as offline reinforcement learning or external planners, are ill-suited to these settings, typically assuming stationarity and incurring substantial training overhead. To bridge this gap, we propose \textbf{ALSO} (\textbf{A}dversarial on\textbf{L}ine \textbf{S}trategy \textbf{O}ptimization), the first framework for online strategy optimization in multi-agent social simulation. ALSO advances social adaptation through two key contributions. (1) ALSO formulates multi-turn interaction as an adversarial bandit problem, where combinations of static personas and dynamic strategy instructions are treated as arms, providing a principled solution to non-stationarity without relying on environmental stability assumptions. (2) To predict rewards and generalize sparse feedback in multi-turn dialogues, ALSO introduces a lightweight neural surrogate to predict rewards from interaction histories, enabling sample-efficient exploration and continuous online adaptation. Experiments on the Sotopia benchmark demonstrate that ALSO consistently outperforms static baselines and existing optimization methods in dynamic environments, validating the effectiveness of adversarial online strategy optimization for building robust social agents.
- Abstract(参考訳): 社会シミュレーションは、エージェントが進化する状況下での多ターン対話を通じて相互作用し、戦略的に敵に適応する社会知性を研究するための魅力的なテストベッドを提供する。
このような環境は本質的に非定常的であり、エージェントは時間とともに戦略を動的に調整する必要がある。
しかし、ほとんどのLarge Language Model (LLM) ベースのソーシャルエージェントは静的なペルソナに依存しているが、オフラインの強化学習や外部プランナーのような社会的知性を高める既存のアプローチは、これらの設定に適していない。
このギャップを埋めるために、マルチエージェント社会シミュレーションにおけるオンライン戦略最適化のための最初のフレームワークである \textbf{ALSO} (\textbf{A}dversarial on\textbf{L}ine \textbf{S}trategy \textbf{O}ptimization) を提案する。
ALSOは2つの重要な貢献を通じて社会適応を推進している。
1) ALSOは, 静的ペルソナと動的戦略命令の組み合わせをアームとして扱い, 環境安定性の前提に頼らずに, 非定常性に対する原則的解決策を提供する, 対向バンディット問題として多ターンインタラクションを定式化する。
2) マルチターン対話における報酬の予測とスパースフィードバックの一般化のために,ALSOは相互作用履歴から報酬を予測する軽量なニューラルサロゲートを導入し,サンプル効率の高い探索と連続的なオンライン適応を可能にした。
Sotopiaベンチマークの実験では、ALSOは動的環境における静的ベースラインと既存の最適化手法を一貫して上回り、堅牢なソーシャルエージェントを構築するための対戦型オンライン戦略最適化の有効性を検証している。
関連論文リスト
- PolicySim: An LLM-Based Agent Social Simulation Sandbox for Proactive Policy Optimization [22.490419080772586]
PolicySimは、介入ポリシーの積極的な評価と最適化のためのLLMベースの社会シミュレーションサンドボックスである。
PolicySimは,マイクロレベルとマクロレベルの両方で,プラットフォームエコシステムを正確にシミュレートできることを示す。
論文 参考訳(メタデータ) (2026-03-20T05:20:39Z) - Game-Theoretic Co-Evolution for LLM-Based Heuristic Discovery [37.96481049421407]
大規模言語モデル(LLM)は、自動発見の急速な進歩を可能にした。
本稿では,発見を問題解決者とインスタンスジェネレータのプログラムレベルの共進化として再編成するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T12:14:52Z) - A Hierarchical Hybrid AI Approach: Integrating Deep Reinforcement Learning and Scripted Agents in Combat Simulations [0.0]
本稿では,スクリプトエージェントの信頼性と予測性をRLの動的適応学習能力と相乗化する,階層型ハイブリッド人工知能(AI)アプローチを提案する。
提案手法は,AIシステムを階層的に構築することにより,日常的かつ戦術的な意思決定にスクリプトエージェント,高レベルの戦略的意思決定にRLエージェントを活用することを目的としている。
論文 参考訳(メタデータ) (2025-11-28T23:50:29Z) - Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - CyGATE: Game-Theoretic Cyber Attack-Defense Engine for Patch Strategy Optimization [73.13843039509386]
本稿では,攻撃と防御の相互作用をモデル化するゲーム理論フレームワークCyGATEを提案する。
CyGATEはサイバー・キル・チェーン(Cyber Kill Chain)の段階にわたって、サイバー紛争を部分的に観察可能なゲーム(POSG)として捉えている。
フレームワークの柔軟なアーキテクチャは、マルチエージェントシナリオの拡張を可能にする。
論文 参考訳(メタデータ) (2025-08-01T09:53:06Z) - SOTOPIA-$Ω$: Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents [16.320531397370008]
本稿では,言語エージェントの社会的能力向上のための枠組みを提案する。
本稿では,ソーシャルインストラクション・フォロー(S-IF)の概念を導入し,新しい2つのS-IF評価指標を提案する。
質の高いコーパスで訓練された複数の7Bモデルが,社会目標達成において,専門家エージェント(GPT-4)をはるかに上回るだけでなく,その達成に寄与することが実証された。
論文 参考訳(メタデータ) (2025-02-21T15:40:37Z) - SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。
マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。