Fugu-MT 論文翻訳(概要): Reinforcement learning for PHY layer communications

論文の概要: Reinforcement learning for PHY layer communications

arxiv url: http://arxiv.org/abs/2106.11595v1
Date: Tue, 22 Jun 2021 08:02:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-23 15:05:58.231835
Title: Reinforcement learning for PHY layer communications
Title（参考訳）: PHY層通信のための強化学習
Authors: Philippe Mary (IETR), Visa Koivunen, Christophe Moy (IETR)
Abstract要約: 第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。第9.3節では、RL問題のモデル化にも重点を置いている。この章は第9.4節で締めくくられ、RLの動向を予見する。
参考スコア（独自算出の注目度）: 16.87674275351593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this chapter, we will give comprehensive examples of applying RL in optimizing the physical layer of wireless communications by defining different class of problems and the possible solutions to handle them. In Section 9.2, we present all the basic theory needed to address a RL problem, i.e. Markov decision process (MDP), Partially observable Markov decision process (POMDP), but also two very important and widely used algorithms for RL, i.e. the Q-learning and SARSA algorithms. We also introduce the deep reinforcement learning (DRL) paradigm and the section ends with an introduction to the multi-armed bandits (MAB) framework. Section 9.3 focuses on some toy examples to illustrate how the basic concepts of RL are employed in communication systems. We present applications extracted from literature with simplified system models using similar notation as in Section 9.2 of this Chapter. In Section 9.3, we also focus on modeling RL problems, i.e. how action and state spaces and rewards are chosen. The Chapter is concluded in Section 9.4 with a prospective thought on RL trends and it ends with a review of a broader state of the art in Section 9.5.
Abstract（参考訳）: 本章では,無線通信の物理層を最適化するためにrlを適用する際の包括的例を示す。第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。マルコフ決定プロセス (MDP) は、部分的に観測可能なマルコフ決定プロセス (POMDP) であり、またRLのための非常に重要で広く使われているアルゴリズムである。 Q-learningとSARSAアルゴリズム。深層強化学習(DRL)のパラダイムも導入し,マルチアーム・バンディット(MAB)フレームワークの導入で終了する。第9.3節は、RLの基本概念が通信システムにどのように使われているかを説明するためのおもちゃの例に焦点を当てている。本章の9.2節と同様の表記法を用いて,簡易なシステムモデルを用いた文献から抽出した応用について述べる。第9.3節では、RL問題のモデリングにも焦点をあてている。行動と国家の空間と報酬の選択方法ですこの章は第9.4節でRLの動向を予見し、第9.5節で芸術のより広い状態のレビューで終わる。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文参考訳（メタデータ） (2025-06-17T20:24:00Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。 RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。 RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-26T18:49:59Z)
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文参考訳（メタデータ） (2024-05-22T13:39:33Z)
Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。 Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文参考訳（メタデータ） (2023-11-29T10:38:16Z)
Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文参考訳（メタデータ） (2023-02-28T13:22:29Z)
Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文参考訳（メタデータ） (2022-07-12T21:02:02Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文参考訳（メタデータ） (2022-03-17T14:51:21Z)
Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文参考訳（メタデータ） (2022-02-09T15:01:59Z)
Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文参考訳（メタデータ） (2021-12-24T15:04:43Z)
Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文参考訳（メタデータ） (2021-12-14T18:33:29Z)
Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。 RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文参考訳（メタデータ） (2021-08-20T05:18:50Z)
Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文参考訳（メタデータ） (2020-03-12T21:03:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。