論文の概要: Towards More Efficient, Robust, Instance-adaptive, and Generalizable Online Learning
- arxiv url: http://arxiv.org/abs/2504.09192v1
- Date: Sat, 12 Apr 2025 12:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:37.507937
- Title: Towards More Efficient, Robust, Instance-adaptive, and Generalizable Online Learning
- Title(参考訳): より効率的、ロバスト、インスタンス適応、一般化可能なオンライン学習を目指して
- Authors: Zhiyong Wang,
- Abstract要約: 私の研究は、強化学習(RL)、マルチアームバンディット、そしてレコメンデーションシステム、コンピュータネットワーク、ビデオ分析、大規模言語モデル(LLM)など、その応用に焦点を当てています。
私の研究は、強化学習と盗賊の両方のための、より効率的で堅牢で、インスタンス適応的で、一般化可能なオンライン学習アルゴリズムを開発することを目的としています。
- 参考スコア(独自算出の注目度): 9.955716251167424
- License:
- Abstract: The primary goal of my Ph.D. study is to develop provably efficient and practical algorithms for data-driven online sequential decision-making under uncertainty. My work focuses on reinforcement learning (RL), multi-armed bandits, and their applications, including recommendation systems, computer networks, video analytics, and large language models (LLMs). Online learning methods, such as bandits and RL, have demonstrated remarkable success - ranging from outperforming human players in complex games like Atari and Go to advancing robotics, recommendation systems, and fine-tuning LLMs. Despite these successes, many established algorithms rely on idealized models that can fail under model misspecifications or adversarial perturbations, particularly in settings where accurate prior knowledge of the underlying model class is unavailable or where malicious users operate within dynamic systems. These challenges are pervasive in real-world applications, where robust and adaptive solutions are critical. Furthermore, while worst-case guarantees provide theoretical reliability, they often fail to capture instance-dependent performance, which can lead to more efficient and practical solutions. Another key challenge lies in generalizing to new, unseen environments, a crucial requirement for deploying these methods in dynamic and unpredictable settings. To address these limitations, my research aims to develop more efficient, robust, instance-adaptive, and generalizable online learning algorithms for both reinforcement learning and bandits. Towards this end, I focus on developing more efficient, robust, instance-adaptive, and generalizable for both general reinforcement learning (RL) and bandits.
- Abstract(参考訳): 私のPh.D.研究の第一の目的は、不確実性の下でデータ駆動型オンラインシーケンシャル意思決定のための証明可能な効率的かつ実用的なアルゴリズムを開発することです。
私の仕事は、強化学習(RL)、マルチアームの盗賊、そしてレコメンデーションシステム、コンピュータネットワーク、ビデオ分析、大規模言語モデル(LLM)など、その応用に焦点を当てています。
バンディットやRLといったオンライン学習手法は、AtariやGoのような複雑なゲームで人間プレイヤーよりも優れた成績を収めることから、ロボティクスの進歩、レコメンデーションシステム、微調整のLLMまで、目覚ましい成功を収めている。
これらの成功にもかかわらず、確立されたアルゴリズムの多くは、モデルの不特定性や敵の摂動の下で失敗する可能性のある理想化されたモデル、特に基礎となるモデルクラスの正確な事前知識が利用できない設定や、悪意のあるユーザが動的システム内で動作可能な設定に依存している。
これらの課題は、ロバストで適応的なソリューションが不可欠である現実世界のアプリケーションに広まっています。
さらに、最悪のケース保証は理論的な信頼性を提供するが、多くの場合、インスタンス依存のパフォーマンスをキャプチャできないため、より効率的で実用的なソリューションにつながる可能性がある。
もうひとつの重要な課題は、動的で予測不能な設定でこれらのメソッドをデプロイするための重要な要件である、新しい、目に見えない環境への一般化である。
これらの制限に対処するために、私の研究は強化学習と盗賊の両方のためのより効率的で堅牢で、インスタンス適応的で、一般化可能なオンライン学習アルゴリズムを開発することを目的としています。
この目的に向けて、私は、より効率的で堅牢で、インスタンス適応的で、一般的な強化学習(RL)と盗賊の両方に一般化できるものを開発することに重点を置いています。
関連論文リスト
- Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。