論文の概要: PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2510.04080v1
- Date: Sun, 05 Oct 2025 07:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.444289
- Title: PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity
- Title(参考訳): PoLi-RL:条件付きセマンティックテキスト類似性のためのポイント・ツー・リスト強化学習フレームワーク
- Authors: Zixin Song, Bowen Zhang, Qian-Wen Zhang, Di Yin, Xing Sun, Chunping Li,
- Abstract要約: 本稿では,新しいポイントツーリスト強化学習フレームワークPoLi-RLを紹介する。
PoLi-RLは、基本的なスコアリング能力を確立するために、単純なポイントワイズでモデルを訓練する。
その後、ポイントワイド、ペアワイド、リストワイドの目的を組み合わせたハイブリッド報酬に移行し、微妙なセマンティックな区別を識別するモデルの能力を洗練させる。
公式のC-STSベンチマークでは、PoLi-RLは48.18のスピアマン相関係数を達成し、クロスエンコーダアーキテクチャのための新しいSOTAを確立した。
- 参考スコア(独自算出の注目度): 22.289473489488955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional Semantic Textual Similarity (C-STS) measures the semantic proximity between text segments under a specific condition, thereby overcoming the ambiguity inherent in traditional STS. However, existing methods are largely confined to discriminative models, failing to fully integrate recent breakthroughs in the NLP community concerning Large Language Models (LLMs) and Reinforcement Learning (RL). RL is a particularly well-suited paradigm for this task, as it can directly optimize the non-differentiable Spearman ranking metric and guide the reasoning process required by C-STS. However, we find that naively applying listwise RL fails to produce meaningful improvements, as the model is overwhelmed by complex, coarse-grained reward signals. To address this challenge, we introduce PoLi-RL, a novel Point-to-List Reinforcement Learning framework. PoLi-RL employs a two-stage curriculum: it first trains the model with simple pointwise rewards to establish fundamental scoring capabilities, then transitions to a hybrid reward that combines pointwise, pairwise, and listwise objectives to refine the model's ability to discern subtle semantic distinctions. Crucially, we propose an innovative Parallel Slice Ranking Reward (PSRR) mechanism that computes ranking rewards in parallel slices, where each slice comprises same-indexed completions from different samples. This provides a precise, differentiated learning signal for each individual completion, enabling granular credit assignment and effective optimization. On the official C-STS benchmark, PoLi-RL achieves a Spearman correlation coefficient of 48.18, establishing a new SOTA for the cross-encoder architecture. As the first work to successfully apply RL to C-STS, our study introduces a powerful and precise paradigm for training LLMs on complex, ranking-based conditional judgment tasks.
- Abstract(参考訳): 条件付きセマンティックテキスト類似度(C-STS)は、特定の条件下でのテキストセグメント間の意味的近接度を測定し、従来のSTSに固有の曖昧さを克服する。
しかし、既存の手法は差別的モデルに限られており、LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)に関するNLPコミュニティの最近のブレークスルーを完全に統合することができない。
RLは、微分不可能なスピアマンランキングを直接最適化し、C-STSで要求される推論プロセスを導くことができるため、このタスクには特に適しているパラダイムである。
しかし, モデルが複雑で粗い報酬信号に圧倒されているため, リストワイズRLをネーティブに適用しても有意義な改善は得られないことがわかった。
この課題に対処するために,新規なPoint-to-List Reinforcement LearningフレームワークPoLi-RLを紹介する。
PoLi-RLは2段階のカリキュラムを採用しており、まず基本的なスコアリング能力を確立するために単純なポイントワイド報酬でモデルを訓練し、次にポイントワイド、ペアワイド、リストワイドの目的を組み合わせたハイブリッド報酬に移行し、微妙なセマンティックな区別を識別するモデルの能力を洗練させる。
そこで本研究では, 並列スライスにおける評価報酬を計算し, それぞれのスライスに対して, 異なるサンプルから同一のインデクシングを施したParallel Slice Ranking Reward (PSRR) 機構を提案する。
これにより、個々の完了ごとに正確に区別された学習信号が提供され、きめ細かいクレジット割り当てと効果的な最適化が可能になる。
公式のC-STSベンチマークでは、PoLi-RLは48.18のスピアマン相関係数を達成し、クロスエンコーダアーキテクチャのための新しいSOTAを確立した。
C-STSにRLを適用した最初の研究として、複雑なランク付けに基づく条件判断タスクでLLMを訓練するための、強力で正確なパラダイムを紹介した。
関連論文リスト
- RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs? [92.4931695205957]
DELTA-Codeは、学習可能性と伝達可能性という2つの基本的な側面を探索するために設計された、合成符号問題ファミリーのベンチマークである。
実験の結果, ほぼゼロ報酬の期間が延長された後, RL訓練モデルが突然, ほぼ完全な精度に上昇した。
従来未解決であった問題ファミリの学習性を確保するため,深い報酬を伴うウォームアップ,経験リプレイ,カリキュラムトレーニング,ループ内検証などの重要なトレーニング項目を探索する。
論文 参考訳(メタデータ) (2025-09-25T11:20:56Z) - CoDiEmb: A Collaborative yet Distinct Framework for Unified Representation Learning in Information Retrieval and Semantic Textual Similarity [20.349897901019574]
統合されたテキスト埋め込みをトレーニングするための統合フレームワークであるCoDiEmbを紹介する。
CoDiEmbは、効果的な共同最適化のための3つの重要なイノベーションを統合している。
我々の結果と分析は、このフレームワークがクロスタスクトレードオフを緩和していることを示している。
論文 参考訳(メタデータ) (2025-08-15T12:46:35Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [26.835266813794316]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。