Fugu-MT 論文翻訳(概要): ARM: Efficient Guided Decoding with Autoregressive Reward Models

論文の概要: ARM: Efficient Guided Decoding with Autoregressive Reward Models

arxiv url: http://arxiv.org/abs/2407.04615v1
Date: Fri, 5 Jul 2024 16:11:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 12:51:25.157456
Title: ARM: Efficient Guided Decoding with Autoregressive Reward Models
Title（参考訳）: ARM: 自己回帰リワードモデルによる効率的なガイド付きデコーディング
Authors: Sergey Troshin, Vlad Niculae, Antske Fokkens,
Abstract要約: そこでは,タスク固有の報酬モデルから得られるスコアを用いて,基本言語モデルのロジットを増大させることが目的である。本稿では,高速かつ効率的なガイド付き復号化を可能にする自己回帰報酬モデルの簡易かつ効率的なパラメータ化を提案する。
参考スコア（独自算出の注目度）: 13.38174941551702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models trained on large amounts of data require careful tuning to be safely deployed in real world. We revisit the guided decoding paradigm, where the goal is to augment the logits of the base language model using the scores from a task-specific reward model. We propose a simple but efficient parameterization of the autoregressive reward model enabling fast and effective guided decoding. On detoxification and sentiment control tasks, we show that our efficient parameterization performs on par with RAD, a strong but less efficient guided decoding approach.
Abstract（参考訳）: 大量のデータに基づいてトレーニングされた言語モデルは、現実世界に安全にデプロイするためには、慎重にチューニングする必要がある。そこでは,タスク固有の報酬モデルから得られるスコアを用いて,基本言語モデルのロジットを増大させることが目的である。本稿では,高速かつ効率的なガイド付き復号化を可能にする自己回帰報酬モデルの簡易かつ効率的なパラメータ化を提案する。解毒処理と感情制御のタスクでは、効率的なパラメータ化が強力なガイド付き復号法であるRADと同等に実行されることを示す。

関連論文リスト

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文参考訳（メタデータ） (2026-02-17T15:31:32Z)
Small but Mighty: Dynamic Wavelet Expert-Guided Fine-Tuning of Large-Scale Models for Optical Remote Sensing Object Segmentation [17.208704391815285]
本稿では,WEFTと呼ばれるトレーニング可能なパラメータの少ない動的ウェーブレットエキスパート誘導ファインチューニングパラダイムを提案する。我々のWEFTは、3つのORSIデータセット上で21の最先端(SOTA)メソッドより優れているだけでなく、カモフラージュ、自然、医療シナリオにおいて最適な結果が得られる。
論文参考訳（メタデータ） (2026-01-14T03:11:50Z)
Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文参考訳（メタデータ） (2025-04-26T07:51:05Z)
Efficiently Editing Mixture-of-Experts Models with Compressed Experts [22.868004724309845]
完全エキスパートのコンパクト表現として機能する軽量モジュールである圧縮された専門家の概念を提案する。我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
論文参考訳（メタデータ） (2025-03-01T22:00:03Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-04T23:26:56Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。本研究は,専門家の選択に重要な意味を持つ。
論文参考訳（メタデータ） (2024-02-05T12:31:18Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文参考訳（メタデータ） (2023-11-10T01:35:51Z)
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model [47.722856876213946]
Reward-Augmented Decoding (RAD) は、言語モデルに特定の特性を持つテキストを生成するよう促すために、小さな一方向の報酬モデルを使用するテキスト生成プロシージャである。一方向の報酬モデルを使用することで、RADは前世代のステップからアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
論文参考訳（メタデータ） (2023-10-14T07:19:47Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-11-10T19:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。