論文の概要: Reinforcement Learning for Scalable and Trustworthy Intelligent Systems
- arxiv url: http://arxiv.org/abs/2605.08378v1
- Date: Fri, 08 May 2026 18:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.598494
- Title: Reinforcement Learning for Scalable and Trustworthy Intelligent Systems
- Title(参考訳): スケーラブルで信頼性の高いインテリジェントシステムのための強化学習
- Authors: Guangchen Lan,
- Abstract要約: 強化学習はインテリジェントシステムの能力を向上させるための強力なパラダイムとなっている。
次世代のインテリジェントシステムは、効率的な最適化と信頼できる振る舞いの両方を必要とします。
この論文は、次世代のインテリジェントシステムは効率的な最適化と信頼できる振る舞いの両方を必要とすると主張している。
- 参考スコア(独自算出の注目度): 2.1172256884504588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become a powerful paradigm for improving the capability of intelligent systems, but its practical deployment faces two central challenges. First, reinforcement learning must scale efficiently in distributed environments where communication bandwidth is limited and computation is heterogeneous across agents. Second, as reinforcement learning is increasingly used in post-training large language models and autonomous agents, the optimized policies must also be aligned with human preferences and satisfy safety requirements such as privacy-aware information disclosure. This dissertation addresses both challenges through four complementary contributions spanning federated optimization, preference alignment, and contextual safety. The first part of the dissertation studies scalable reinforcement learning in federated settings. The second part of the dissertation studies trustworthy reinforcement learning for large language models. Together, these contributions advance reinforcement learning along two complementary dimensions. On the one hand, they make reinforcement learning more scalable through communication-efficient and asynchronous federated optimization. On the other hand, they make reinforcement learning more trustworthy by improving alignment with human preferences and by reducing contextually inappropriate information disclosure in language-based intelligent systems. As a whole, this dissertation argues that the next generation of intelligent systems will require both efficient optimization and trustworthy behavior, and that reinforcement learning provides a unifying framework for addressing both goals.
- Abstract(参考訳): 強化学習はインテリジェントシステムの能力を向上させるための強力なパラダイムとなっているが、その実践的な展開は2つの中心的な課題に直面している。
第一に、強化学習は、通信帯域が制限され、計算がエージェント間で不均一な分散環境で効率よくスケールする必要がある。
第二に、強化学習が大規模言語モデルや自律エージェントのポストトレーニングにますます使われているため、最適化されたポリシーは人間の嗜好に適合し、プライバシーに配慮した情報開示のような安全要件を満たす必要がある。
この論文は、フェデレーション最適化、優先順位調整、コンテキスト安全性にまたがる4つの補完的な貢献を通じて、両方の課題に対処する。
論文の第1部では、フェデレートされた環境での強化学習をスケーラブルに研究している。
論文の第2部は、大規模言語モデルのための信頼できる強化学習である。
これらの貢献は2つの相補的な側面に沿って強化学習を促進する。
一方、コミュニケーション効率と非同期のフェデレーション最適化によって強化学習をよりスケーラブルにする。
一方で,人間の嗜好との整合性を向上し,文脈的に不適切な情報開示を減らすことで,強化学習をより信頼できるものにする。
全体として、この論文は、次世代のインテリジェントシステムには、効率的な最適化と信頼できる行動の両方が必要であり、強化学習は両方の目標に対処するための統一的なフレームワークを提供する、と論じている。
関連論文リスト
- COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence [57.63155257058967]
我々は,統合MLLMが空間知覚を高める本質的な能力を発達させ,適応的インターリーブ推論により,より強力な空間知性を実現することができるかどうかを検討する。
深度とセグメンテーションを補助モダリティとして活用し,補助モダリティ生成と適応的,インターリーブな推論能力を得るために2段階の訓練を施した統合MLLMである textbfCOOPER を提案する。
論文 参考訳(メタデータ) (2025-12-04T08:26:04Z) - Wisdom is Knowing What not to Say: Hallucination-Free LLMs Unlearning via Attention Shifting [11.725875396424927]
選択的アンラーニングのためのAttention-Shifting(AS)フレームワークを導入する。
ASは,(1)LLMの言語構造を損なうことなく,事実を含むトークンへの注意を弱める文脈保存抑制,(2)未学習コンテンツについて問い合わせたときの完成度を損なう幻覚耐性応答の2つの設計目標によって駆動される。
実験の結果、ASは最先端の未学習手法よりも性能を向上し、ToFUベンチマークでは最大15%、TDECベンチマークでは10%の精度を達成し、競合する幻覚のない未学習の有効性を維持した。
論文 参考訳(メタデータ) (2025-10-20T06:50:03Z) - MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning [82.14973479594367]
複雑な推論タスクのための大規模言語モデル(LLM)は、直感的で意図的な認知プロセスを橋渡しする革新的なアプローチを必要とする。
本稿では,Multi-Agent System for Deep ReSearch (MARS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T15:42:55Z) - Semantic Communication meets System 2 ML: How Abstraction, Compositionality and Emergent Languages Shape Intelligence [35.03380046163083]
本稿では,システム2認知の原理に根ざした統一された研究ビジョンを提案する。
私たちは、推論、適応、コラボレーションが可能な、真にインテリジェントなシステムの基礎を築きました。
論文 参考訳(メタデータ) (2025-05-27T09:57:12Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。
CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文 参考訳(メタデータ) (2023-10-13T07:52:04Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。