論文の概要: R1-RE: Cross-Domain Relation Extraction with RLVR
- arxiv url: http://arxiv.org/abs/2507.04642v2
- Date: Wed, 06 Aug 2025 17:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:09.189984
- Title: R1-RE: Cross-Domain Relation Extraction with RLVR
- Title(参考訳): R1-RE:RLVRを用いたドメイン間関係抽出
- Authors: Runpeng Dai, Tong Zheng, Run Yang, Kaixian Yu, Hongtu Zhu,
- Abstract要約: R1-REは、関係抽出のための検証可能な報酬(RLVR)フレームワークである。
提案手法は, アノテーションタスクに対する小言語モデルの推論能力を引き合いに出し, OODの堅牢性を大幅に向上させる。
R1-RE-7Bモデルは、GPT-4oのような主要なプロプライエタリモデルと同等の平均OOD精度が約70%に達する。
- 参考スコア(独自算出の注目度): 8.049972902718046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relation extraction (RE) is a core task in natural language processing. Traditional approaches typically frame RE as a supervised learning problem, directly mapping context to labels-an approach that often suffers from poor out-of-domain (OOD) generalization. Inspired by the workflow of human annotators, we reframe RE as a reasoning task guided by annotation guidelines and introduce R1-RE, the first reinforcement learning with verifiable reward (RLVR) framework for RE tasks. Our method elicits the reasoning abilities of small language models for annotation tasks, resulting in significantly improved OOD robustness. We evaluate our approach on the public Sem-2010 dataset and a private MDKG dataset. The R1-RE-7B model attains an average OOD accuracy of approximately 70%, on par with leading proprietary models such as GPT-4o. Additionally, our comprehensive analysis provides novel insights into the training dynamics and emergent reasoning behaviors of the RLVR paradigm for RE.
- Abstract(参考訳): 関係抽出(RE)は自然言語処理における中核的なタスクである。
従来のアプローチでは、REを教師付き学習問題とみなし、コンテキストをラベルに直接マッピングする。
人間のアノテータのワークフローにインスパイアされた私たちは、REをガイドラインでガイドされた推論タスクとして再編成し、REタスクの検証可能な報酬(RLVR)フレームワークであるR1-REを紹介した。
提案手法は, アノテーションタスクに対する小言語モデルの推論能力を引き合いに出し, OODの堅牢性を大幅に向上させる。
我々は,公開Sem-2010データセットとプライベートMDKGデータセットに対するアプローチを評価した。
R1-RE-7Bモデルは、GPT-4oのような主要なプロプライエタリモデルと同等の平均OOD精度が約70%に達する。
さらに、我々の包括的分析は、REのためのRLVRパラダイムのトレーニング力学と創発的推論行動に関する新しい洞察を提供する。
関連論文リスト
- RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling [25.12721060984898]
ルールに基づく推論は、推論における根本的な問題の1つとして認識されている。
本稿ではルールベースの推論を行うシンプルな方法であるReinforced Rule-based Reasoning、すなわち RuleReasonerを紹介する。
具体的には、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、Re RuleReasonerは各トレーニングバッチを再サンプリングする。
論文 参考訳(メタデータ) (2025-06-10T10:31:21Z) - RewardAnything: Generalizable Principle-Following Reward Models [82.16312590749052]
リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
一般化可能な原理追従型報酬モデルを導入する。
RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
論文 参考訳(メタデータ) (2025-06-04T07:30:16Z) - Table-R1: Inference-Time Scaling for Table Reasoning [25.481170375825812]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。