論文の概要: PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2510.04080v1
- Date: Sun, 05 Oct 2025 07:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.444289
- Title: PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity
- Title(参考訳): PoLi-RL:条件付きセマンティックテキスト類似性のためのポイント・ツー・リスト強化学習フレームワーク
- Authors: Zixin Song, Bowen Zhang, Qian-Wen Zhang, Di Yin, Xing Sun, Chunping Li,
- Abstract要約: 本稿では,新しいポイントツーリスト強化学習フレームワークPoLi-RLを紹介する。
PoLi-RLは、基本的なスコアリング能力を確立するために、単純なポイントワイズでモデルを訓練する。
その後、ポイントワイド、ペアワイド、リストワイドの目的を組み合わせたハイブリッド報酬に移行し、微妙なセマンティックな区別を識別するモデルの能力を洗練させる。
公式のC-STSベンチマークでは、PoLi-RLは48.18のスピアマン相関係数を達成し、クロスエンコーダアーキテクチャのための新しいSOTAを確立した。
- 参考スコア(独自算出の注目度): 22.289473489488955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional Semantic Textual Similarity (C-STS) measures the semantic proximity between text segments under a specific condition, thereby overcoming the ambiguity inherent in traditional STS. However, existing methods are largely confined to discriminative models, failing to fully integrate recent breakthroughs in the NLP community concerning Large Language Models (LLMs) and Reinforcement Learning (RL). RL is a particularly well-suited paradigm for this task, as it can directly optimize the non-differentiable Spearman ranking metric and guide the reasoning process required by C-STS. However, we find that naively applying listwise RL fails to produce meaningful improvements, as the model is overwhelmed by complex, coarse-grained reward signals. To address this challenge, we introduce PoLi-RL, a novel Point-to-List Reinforcement Learning framework. PoLi-RL employs a two-stage curriculum: it first trains the model with simple pointwise rewards to establish fundamental scoring capabilities, then transitions to a hybrid reward that combines pointwise, pairwise, and listwise objectives to refine the model's ability to discern subtle semantic distinctions. Crucially, we propose an innovative Parallel Slice Ranking Reward (PSRR) mechanism that computes ranking rewards in parallel slices, where each slice comprises same-indexed completions from different samples. This provides a precise, differentiated learning signal for each individual completion, enabling granular credit assignment and effective optimization. On the official C-STS benchmark, PoLi-RL achieves a Spearman correlation coefficient of 48.18, establishing a new SOTA for the cross-encoder architecture. As the first work to successfully apply RL to C-STS, our study introduces a powerful and precise paradigm for training LLMs on complex, ranking-based conditional judgment tasks.
- Abstract(参考訳): 条件付きセマンティックテキスト類似度(C-STS)は、特定の条件下でのテキストセグメント間の意味的近接度を測定し、従来のSTSに固有の曖昧さを克服する。
しかし、既存の手法は差別的モデルに限られており、LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)に関するNLPコミュニティの最近のブレークスルーを完全に統合することができない。
RLは、微分不可能なスピアマンランキングを直接最適化し、C-STSで要求される推論プロセスを導くことができるため、このタスクには特に適しているパラダイムである。
しかし, モデルが複雑で粗い報酬信号に圧倒されているため, リストワイズRLをネーティブに適用しても有意義な改善は得られないことがわかった。
この課題に対処するために,新規なPoint-to-List Reinforcement LearningフレームワークPoLi-RLを紹介する。
PoLi-RLは2段階のカリキュラムを採用しており、まず基本的なスコアリング能力を確立するために単純なポイントワイド報酬でモデルを訓練し、次にポイントワイド、ペアワイド、リストワイドの目的を組み合わせたハイブリッド報酬に移行し、微妙なセマンティックな区別を識別するモデルの能力を洗練させる。
そこで本研究では, 並列スライスにおける評価報酬を計算し, それぞれのスライスに対して, 異なるサンプルから同一のインデクシングを施したParallel Slice Ranking Reward (PSRR) 機構を提案する。
これにより、個々の完了ごとに正確に区別された学習信号が提供され、きめ細かいクレジット割り当てと効果的な最適化が可能になる。
公式のC-STSベンチマークでは、PoLi-RLは48.18のスピアマン相関係数を達成し、クロスエンコーダアーキテクチャのための新しいSOTAを確立した。
C-STSにRLを適用した最初の研究として、複雑なランク付けに基づく条件判断タスクでLLMを訓練するための、強力で正確なパラダイムを紹介した。
関連論文リスト
- ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - LORE: A Large Generative Model for Search Relevance [23.808303249081117]
本稿では,eコマース検索における大規模生成モデルに基づく関連性の体系的枠組みであるLOREを紹介する。
LOREは3年にわたってデプロイされ、反復され、オンラインGoodRateメトリクスの累積+27%の改善を実現した。
論文 参考訳(メタデータ) (2025-12-02T18:50:42Z) - RL-AD-Net: Reinforcement Learning Guided Adaptive Displacement in Latent Space for Refined Point Cloud Completion [9.252819624397405]
本稿では,事前学習点オートエンコーダの潜在空間で動作する強化学習フレームワークであるRL-AD-Netを提案する。
頑健性を確保するために、軽量な非パラメトリックPointNNセレクタは、元の完備化とRL精製出力の両方の幾何的整合性を評価する。
ShapeNetCore-2048の実験では、ベースライン完了ネットワークはトレーニングスタイルの収穫において合理的に機能するが、ランダムな収穫シナリオで苦労することを示した。
論文 参考訳(メタデータ) (2025-11-21T08:55:55Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs? [92.4931695205957]
DELTA-Codeは、学習可能性と伝達可能性という2つの基本的な側面を探索するために設計された、合成符号問題ファミリーのベンチマークである。
実験の結果, ほぼゼロ報酬の期間が延長された後, RL訓練モデルが突然, ほぼ完全な精度に上昇した。
従来未解決であった問題ファミリの学習性を確保するため,深い報酬を伴うウォームアップ,経験リプレイ,カリキュラムトレーニング,ループ内検証などの重要なトレーニング項目を探索する。
論文 参考訳(メタデータ) (2025-09-25T11:20:56Z) - CoDiEmb: A Collaborative yet Distinct Framework for Unified Representation Learning in Information Retrieval and Semantic Textual Similarity [20.349897901019574]
統合されたテキスト埋め込みをトレーニングするための統合フレームワークであるCoDiEmbを紹介する。
CoDiEmbは、効果的な共同最適化のための3つの重要なイノベーションを統合している。
我々の結果と分析は、このフレームワークがクロスタスクトレードオフを緩和していることを示している。
論文 参考訳(メタデータ) (2025-08-15T12:46:35Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [26.835266813794316]
まず,MLLM画像分類のためのCRS-RLを提案する。
RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。
No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。