論文の概要: Pacing Opinion Polarization via Graph Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.23390v1
- Date: Mon, 23 Feb 2026 11:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.060317
- Title: Pacing Opinion Polarization via Graph Reinforcement Learning
- Title(参考訳): グラフ強化学習によるペイシングオピニオン分極
- Authors: Mingkai Liao,
- Abstract要約: PACIFIERは、ネットワーク介入による逐次分極変調のためのグラフ強化学習フレームワークである。
正統的な問題を逐次的な意思決定タスクとして再構成し、定常的な再計算を繰り返すことなく適応的な介入ポリシーを可能にする。
実世界のネットワークの実験は、様々なモデレーションシナリオにおける強力なパフォーマンスとスケーラビリティを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Opinion polarization in online social networks poses serious risks to social cohesion and democratic processes. Recent studies formulate polarization moderation as algorithmic intervention problems under opinion dynamics models, especially the Friedkin--Johnsen (FJ) model. However, most existing methods are tailored to specific linear settings and rely on closed-form steady-state analysis, limiting scalability, flexibility, and applicability to cost-aware, nonlinear, or topology-altering interventions. We propose PACIFIER, a graph reinforcement learning framework for sequential polarization moderation via network interventions. PACIFIER reformulates the canonical ModerateInternal (MI) and ModerateExpressed (ME) problems as sequential decision-making tasks, enabling adaptive intervention policies without repeated steady-state recomputation. The framework is objective-agnostic and extends naturally to FJ-consistent settings, including budget-aware interventions, continuous internal opinions, biased-assimilation dynamics, and node removal. Extensive experiments on real-world networks demonstrate strong performance and scalability across diverse moderation scenarios.
- Abstract(参考訳): オンラインソーシャルネットワークにおけるオピニオン分極は、社会的結束と民主的プロセスに深刻なリスクをもたらす。
最近の研究は、意見力学モデル、特にフリードキン・ジョンセン(FJ)モデルの下でのアルゴリズム的介入問題として偏極変調を定式化している。
しかし、既存のほとんどのメソッドは特定の線形設定に合わせて調整されており、閉じた形式の定常状態解析に依存しており、スケーラビリティ、柔軟性、コスト認識、非線形、トポロジ変換の介入に適用可能である。
ネットワーク介入による逐次分極変調のためのグラフ強化学習フレームワークであるPACIFIERを提案する。
PACIFIERは、連続的な意思決定タスクとして、標準モデレートインターナル(MI)とモデレート圧縮(ME)問題を再構成し、定常再計算を繰り返すことなく適応的な介入ポリシーを可能にする。
このフレームワークは客観的に非依存であり、予算対応の介入、継続的な内部意見、バイアス付き同化ダイナミクス、ノード削除など、FJに一貫性のある設定に自然に拡張される。
現実世界のネットワークに関する大規模な実験は、様々なモデレーションシナリオにおける強力なパフォーマンスとスケーラビリティを示している。
関連論文リスト
- On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - On the System Theoretic Offline Learning of Continuous-Time LQR with Exogenous Disturbances [3.701656361145375]
線形二次規制 (LQR) 戦略のオフライン設計を不確実な乱れを伴う解析を行う。
我々のアプローチは、適応動的プログラミングの基本的な学習ベースのフレームワークの上に構築されている。
論文 参考訳(メタデータ) (2025-09-20T17:14:27Z) - POLAR: A Pessimistic Model-based Policy Learning Algorithm for Dynamic Treatment Regimes [15.681058679765277]
オフライン動的処理システム(DTR)のための悲観的モデルに基づくポリシー学習アルゴリズムであるPOLARを提案する。
POLARは、オフラインデータから遷移ダイナミクスを推定し、各ヒストリアクションペアに対する不確実性を定量化する。
平均的なトレーニングパフォーマンスに重点を置く既存の多くの方法とは異なり、POLARは最終学習ポリシーの最適度を直接ターゲットとし、理論的な保証を提供する。
合成データとMIMIC-IIIデータセットの両方の実験結果から、POLARは最先端の手法より優れており、ほぼ最適、歴史に配慮した治療戦略が得られている。
論文 参考訳(メタデータ) (2025-06-25T13:22:57Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Online Nonstochastic Model-Free Reinforcement Learning [35.377261344335736]
本研究では,動的あるいは敵対的な環境に対するロバストモデルロバスト性保証について検討する。
これらのポリシーを最適化するための効率的かつ効率的なアルゴリズムを提供する。
これらは状態空間に依存せず、状態空間に依存しない最もよく知られた発展である。
論文 参考訳(メタデータ) (2023-05-27T19:02:55Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。