論文の概要: R1-RE: Cross-Domain Relationship Extraction with RLVR
- arxiv url: http://arxiv.org/abs/2507.04642v1
- Date: Mon, 07 Jul 2025 03:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.270776
- Title: R1-RE: Cross-Domain Relationship Extraction with RLVR
- Title(参考訳): R1-RE:RLVRを用いたドメイン間関係抽出
- Authors: Runpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu,
- Abstract要約: 関係抽出は自然言語処理における中核的な課題である。
本稿では,REタスクに対する検証可能な報酬(RLVR)フレームワークであるR1-REを紹介する。
- 参考スコア(独自算出の注目度): 8.636380859404484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relationship extraction (RE) is a core task in natural language processing. Traditional approaches typically frame RE as a supervised learning problem, directly mapping context to labels-an approach that often suffers from poor out-of-domain (OOD) generalization. Inspired by the workflow of human annotators, we reframe RE as a reasoning task guided by annotation guidelines and introduce R1-RE, the first reinforcement learning with verifiable reward (RLVR) framework for RE tasks. Our method elicits the reasoning abilities of small language models for annotation tasks, resulting in significantly improved OOD robustness. We evaluate our approach on the public Sem-2010 dataset and a private MDKG dataset. The R1-RE-7B model attains an average OOD accuracy of approximately 70%, on par with leading proprietary models such as GPT-4o. Additionally, our comprehensive analysis provides novel insights into the training dynamics and emergent reasoning behaviors of the RLVR paradigm for RE.
- Abstract(参考訳): 関係抽出(RE)は自然言語処理における中核的なタスクである。
従来のアプローチでは、REを教師付き学習問題とみなし、コンテキストをラベルに直接マッピングする。
人間のアノテータのワークフローにインスパイアされた私たちは、REをガイドラインでガイドされた推論タスクとして再編成し、REタスクの検証可能な報酬(RLVR)フレームワークであるR1-REを紹介した。
提案手法は, アノテーションタスクに対する小言語モデルの推論能力を引き合いに出し, OODの堅牢性を大幅に向上させる。
我々は,公開Sem-2010データセットとプライベートMDKGデータセットに対するアプローチを評価した。
R1-RE-7Bモデルは、GPT-4oのような主要なプロプライエタリモデルと同等の平均OOD精度が約70%に達する。
さらに、我々の包括的分析は、REのためのRLVRパラダイムのトレーニング力学と創発的推論行動に関する新しい洞察を提供する。
関連論文リスト
- RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling [25.12721060984898]
ルールに基づく推論は、推論における根本的な問題の1つとして認識されている。
本稿ではルールベースの推論を行うシンプルな方法であるReinforced Rule-based Reasoning、すなわち RuleReasonerを紹介する。
具体的には、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、Re RuleReasonerは各トレーニングバッチを再サンプリングする。
論文 参考訳(メタデータ) (2025-06-10T10:31:21Z) - RewardAnything: Generalizable Principle-Following Reward Models [82.16312590749052]
リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
一般化可能な原理追従型報酬モデルを導入する。
RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
論文 参考訳(メタデータ) (2025-06-04T07:30:16Z) - Table-R1: Inference-Time Scaling for Table Reasoning [25.481170375825812]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。