Fugu-MT 論文翻訳(概要): Towards More Efficient, Robust, Instance-adaptive, and Generalizable Sequential Decision making

論文の概要: Towards More Efficient, Robust, Instance-adaptive, and Generalizable Sequential Decision making

arxiv url: http://arxiv.org/abs/2504.09192v4
Date: Thu, 15 May 2025 06:21:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 12:00:18.73726
Title: Towards More Efficient, Robust, Instance-adaptive, and Generalizable Sequential Decision making
Title（参考訳）: より効率的、ロバスト、インスタンス適応、および一般化可能なシーケンス決定に向けて
Authors: Zhiyong Wang,
Abstract要約: 私の仕事は強化学習(RL)、多腕バンディット、その応用に焦点を当てています。私の研究は、より効率的で堅牢で、インスタンス適応的で、一般化可能なシーケンシャルな意思決定アルゴリズムを開発することを目的としています。
参考スコア（独自算出の注目度）: 9.955716251167424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The primary goal of my Ph.D. study is to develop provably efficient and practical algorithms for data-driven sequential decision-making under uncertainty. My work focuses on reinforcement learning (RL), multi-armed bandits, and their applications, including recommendation systems, computer networks, video analytics, and large language models (LLMs). Sequential decision-making methods, such as bandits and RL, have demonstrated remarkable success - ranging from outperforming human players in complex games like Atari and Go to advancing robotics, recommendation systems, and fine-tuning LLMs. Despite these successes, many established algorithms rely on idealized models that can fail under model misspecifications or adversarial perturbations, particularly in settings where accurate prior knowledge of the underlying model class is unavailable or where malicious users operate within dynamic systems. These challenges are pervasive in real-world applications, where robust and adaptive solutions are critical. Furthermore, while worst-case guarantees provide theoretical reliability, they often fail to capture instance-dependent performance, which can lead to more efficient and practical solutions. Another key challenge lies in generalizing to new, unseen environments, a crucial requirement for deploying these methods in dynamic and unpredictable settings. To address these limitations, my research aims to develop more efficient, robust, instance-adaptive, and generalizable sequential decision-making algorithms for both reinforcement learning and bandits. Towards this end, I focus on developing more efficient, robust, instance-adaptive, and generalizable for both general reinforcement learning (RL) and bandits.
Abstract（参考訳）: 私のPh.D.研究の第一の目的は、不確実性の下でデータ駆動シーケンシャルな意思決定のための証明可能な効率的で実用的なアルゴリズムを開発することです。私の仕事は、強化学習(RL)、マルチアームの盗賊、そしてレコメンデーションシステム、コンピュータネットワーク、ビデオ分析、大規模言語モデル(LLM)など、その応用に焦点を当てています。バンディットやRLといった連続的な意思決定手法は、AtariやGoのような複雑なゲームにおける人間のプレイヤーよりも優れたパフォーマンスから、ロボット工学の進歩、レコメンデーションシステム、微調整のLLMまで、大きな成功を収めている。これらの成功にもかかわらず、確立されたアルゴリズムの多くは、モデルの不特定性や敵の摂動の下で失敗する可能性のある理想化されたモデル、特に基礎となるモデルクラスの正確な事前知識が利用できない設定や、悪意のあるユーザが動的システム内で動作可能な設定に依存している。これらの課題は、ロバストで適応的なソリューションが不可欠である現実世界のアプリケーションに広まっています。さらに、最悪のケース保証は理論的な信頼性を提供するが、多くの場合、インスタンス依存のパフォーマンスをキャプチャできないため、より効率的で実用的なソリューションにつながる可能性がある。もうひとつの重要な課題は、動的で予測不能な設定でこれらのメソッドをデプロイするための重要な要件である、新しい、目に見えない環境への一般化である。これらの制限に対処するため、私の研究は、強化学習と盗賊の両方のための、より効率的で堅牢で、インスタンス適応的で、一般化可能なシーケンシャルな意思決定アルゴリズムを開発することを目的としています。この目的に向けて、私は、より効率的で堅牢で、インスタンス適応的で、一般的な強化学習(RL)と盗賊の両方に一般化できるものを開発することに重点を置いています。

関連論文リスト

Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
Control-Optimized Deep Reinforcement Learning for Artificially Intelligent Autonomous Systems [8.766411351797885]
深層強化学習(DRL)は、機械学習とAIにおいて、複雑な意思決定のための強力なツールとなっている。従来の手法では、エージェントが選択したアクションと実際のシステム応答の間の不確実性や逸脱を見越して、完璧なアクション実行を仮定することが多い。この作業は、アクション実行ミスマッチを明示的にモデル化し補償する、制御最適化DRLフレームワークを開発することで、AIを前進させる。
論文参考訳（メタデータ） (2025-06-30T21:25:52Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳（メタデータ） (2025-02-17T03:34:31Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文参考訳（メタデータ） (2024-06-24T08:18:19Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。 Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文参考訳（メタデータ） (2022-09-19T14:09:07Z)
Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。 RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文参考訳（メタデータ） (2022-08-10T03:47:45Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。