論文の概要: A Reinforcement Learning Based Universal Sequence Design for Polar Codes
- arxiv url: http://arxiv.org/abs/2601.20118v1
- Date: Tue, 27 Jan 2026 23:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.696989
- Title: A Reinforcement Learning Based Universal Sequence Design for Polar Codes
- Title(参考訳): 強化学習に基づく極性符号のユニバーサルシーケンス設計
- Authors: David Kin Wai Ho, Arman Fazeli, Mohamad M. Mansour, Louay M. A. Jalloul,
- Abstract要約: 6Gアプリケーションのための強化学習に基づくユニバーサルシーケンス設計フレームワークを開発した。
私たちのメソッドはコード長を2048ドルまでスケールし、標準化に適しています。
5Gでサポートされているすべての$(N,K)$構成に対して,本手法は5Gで採用されているNRシーケンスと比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 2.306914570763891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To advance Polar code design for 6G applications, we develop a reinforcement learning-based universal sequence design framework that is extensible and adaptable to diverse channel conditions and decoding strategies. Crucially, our method scales to code lengths up to $2048$, making it suitable for use in standardization. Across all $(N,K)$ configurations supported in 5G, our approach achieves competitive performance relative to the NR sequence adopted in 5G and yields up to a 0.2 dB gain over the beta-expansion baseline at $N=2048$. We further highlight the key elements that enabled learning at scale: (i) incorporation of physical law constrained learning grounded in the universal partial order property of Polar codes, (ii) exploitation of the weak long term influence of decisions to limit lookahead evaluation, and (iii) joint multi-configuration optimization to increase learning efficiency.
- Abstract(参考訳): 6Gアプリケーションのための極性設計を進めるために,様々なチャネル条件やデコード戦略に適応可能な拡張学習に基づくユニバーサルシーケンス設計フレームワークを開発した。
重要なことに、我々のメソッドはコード長を2048ドルまでスケールし、標準化に適しています。
5Gでサポートされているすべての$(N,K)$構成に対して,提案手法は5Gで採用されているNRシーケンスと比較して競争性能が向上し,ベータ拡張ベースラインである$N=2048$に対して最大0.2dBのゲインが得られる。
大規模学習を可能にする重要な要素をさらに強調する。
一 極符号の普遍的部分順序性に根ざした物理法則の定式化
二 ルックアヘッド評価を制限するための決定の長期的影響の弱さの活用、及び
三 学習効率を高めるための共同マルチコンフィグレーション最適化。
関連論文リスト
- Scaling Bidirectional Spans and Span Violations in Attention Mechanism [5.755498052202004]
canonical $O(N2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアのままである。
本研究では,非対称なプロジェクションを利用して後方方向の勾配を並列スパンに分解する最適化フレームワークを提案する。
我々はこれらのコンポーネントを選択的にスケーリングし、主に0分の1の双方向並列スパンにフォーカスすることで、最も効果的な学習信号が得られることを示した。
論文 参考訳(メタデータ) (2025-12-15T07:03:24Z) - Align$^3$GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation [17.5435958671623]
Align$3$GRはトークンレベル、振る舞いモデリングレベル、優先度レベルのアライメントを統一する新しいフレームワークである。
提案手法は,動的嗜好適応のための自己再生(SP-DPO)と実世界フィードバック(RF-DPO)を組み合わせる。
論文 参考訳(メタデータ) (2025-11-14T12:52:43Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Multi-Objective Reinforcement Learning-based Approach for Pressurized Water Reactor Optimization [0.0]
PEARLは、従来のポリシーに基づく多目的強化学習法とを、単一のポリシーを学習することで区別する。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
2つの実用的PWRコアローディングパターン最適化問題を用いて実世界の応用性を実証した。
論文 参考訳(メタデータ) (2023-12-15T20:41:09Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。