Fugu-MT 論文翻訳(概要): Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

論文の概要: Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

arxiv url: http://arxiv.org/abs/2603.01481v1
Date: Mon, 02 Mar 2026 05:44:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.702102
Title: Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents
Title（参考訳）: マルチターンRLにおける高調波とスパース信号:工業販売業者のデュアル水平クレジットアサインメント
Authors: Haojin Yang, Ai Jian, Xinyue Huang, Yiwei Wang, Weipeng Zhang, Ke Zeng, Xunliang Cai, Jingqing Ruan,
Abstract要約: 時間スケールで最適化を阻害するフレームワークを提案する。高忠実度ユーザシミュレータによる実験では、DuCAは最先端のGRPOベースラインを上回っている。
参考スコア（独自算出の注目度）: 29.076822653598885
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Optimizing large language models for industrial sales requires balancing long-term commercial objectives (e.g., conversion rate) with immediate linguistic constraints such as fluency and compliance. Conventional reinforcement learning often merges these heterogeneous goals into a single reward, causing high-magnitude session-level rewards to overwhelm subtler turn-level signals, which leads to unstable training or reward hacking. To address this issue, we propose Dual-Horizon Credit Assignment (DuCA), a framework that disentangles optimization across time scales. Its core, Horizon-Independent Advantage Normalization (HIAN), separately normalizes advantages from turn-level and session-level rewards before fusion, ensuring balanced gradient contributions from both immediate and long-term objectives to the policy update. Extensive experiments with a high-fidelity user simulator show DuCA outperforms the state-of-the-art GRPO baseline, achieving a 6.82% relative improvement in conversion rate, reducing inter-sentence repetition by 82.28%, and lowering identity detection rate by 27.35%, indicating a substantial improvement for an industrial sales scenario that effectively balances the dual demands of strategic performance and naturalistic language generation.
Abstract（参考訳）: 産業販売のために大きな言語モデルを最適化するには、長期の商業目的(例えば変換率)と、流布やコンプライアンスといった即時的な言語制約のバランスをとる必要がある。従来の強化学習は、これらの不均一な目標を単一の報酬にマージすることが多く、高次セッションレベルの報酬がより微妙なターンレベルのシグナルを圧倒し、不安定なトレーニングや報酬ハッキングにつながる。この問題に対処するため,DuCA(Dual-Horizon Credit Assignment)を提案する。その中核であるHorizon-Independent Advantage Normalization (HIAN)は、統合前のターンレベルとセッションレベルの報酬の利点を別々に正規化し、即時および長期の目標からポリシー更新へのバランスのとれた勾配の貢献を保証する。高忠実度ユーザシミュレーターによる大規模な実験では、DuCAは最先端のGRPOベースラインを上回り、変換率6.82%の相対的な改善、文間繰り返しの82.28%の削減、アイデンティティ検出率27.35%の低下を実現し、戦略的パフォーマンスと自然言語生成の二重要求を効果的にバランスさせる産業販売シナリオの大幅な改善を示している。

関連論文リスト

Rewards as Labels: Revisiting RLVR from a Classification Perspective [10.774056916074441]
検証可能なリワードによる強化学習は、最近、複雑な推論タスクにおける大規模言語モデルの能力を進歩させた。本稿では,評価可能な報酬をスカラーウェイトではなくカテゴリラベルとして再考する新しいフレームワークであるRewards as Labels (REAL)を提案する。解析の結果,REALは単調かつ有界な勾配重み付けを誘導し,ロールアウト間のバランスの取れた勾配割り当てを可能にすることがわかった。
論文参考訳（メタデータ） (2026-02-05T13:11:36Z)
The Enhanced Physics-Informed Kolmogorov-Arnold Networks: Applications of Newton's Laws in Financial Deep Reinforcement Learning (RL) Algorithms [1.2508796035825014]
金融において、ディープ強化学習(Dep Reinforcement Learning, DRL)は、個別の貿易信号を生成したり、継続的なポートフォリオ割り当てを決定するために一般的に用いられる。物理インフォームド・コルモゴロフ・アルノルドネットワーク(PIKAN)を複数のDRLアルゴリズムに組み込んだ新しい強化学習フレームワークを提案する。 PIKANをベースとしたエージェントは、高い累積と年率のリターン、優れたシャープとカルマー比、より好ましいドローダウン特性を継続的に提供する。
論文参考訳（メタデータ） (2026-02-01T18:48:33Z)
MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文参考訳（メタデータ） (2026-01-15T18:59:23Z)
Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。 OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2026-01-12T10:48:02Z)
Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。スパース端末の報酬を密度の高いプロセス認識値推定に変換する。標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文参考訳（メタデータ） (2025-12-13T16:31:26Z)
Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making [24.534365665776672]
大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存している。本研究では,DuSARを提案する。DuSARは1つの凍結LDMが共適応推論を行うことを可能にするデモフリーフレームワークである。 ALFWorldとMind2Webでは、DuSARはオープンソースのLLMで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-09T08:44:59Z)
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。 1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-12-08T11:59:25Z)
DualGR: Generative Retrieval with Long and Short-Term Interests Modeling [23.123644321765607]
Generative Retrieval (GR) は Embedding-based Retrieval (EBR) の代替として登場した。ユーザ興味の2つの地平線を選択的アクティベーションで明示的にモデル化する生成検索フレームワークであるDualGRを提案する。オンラインA/Bテストでは0.527%のビデオビューと+0.432%のウォッチタイムリフトがあり、DualGRは産業生成検索の実践的で効果的なパラダイムとして検証されている。
論文参考訳（メタデータ） (2025-11-16T09:20:54Z)
Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。この問題を修正するために,自己整合サンプリング(SCS)を提案する。 Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文参考訳（メタデータ） (2025-11-13T18:59:57Z)
Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文参考訳（メタデータ） (2025-10-20T09:58:03Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。