論文の概要: $\text{R}^2\text{R}$: A Route-to-Rerank Post-Training Framework for Multi-Domain Decoder-Only Rerankers
- arxiv url: http://arxiv.org/abs/2511.19987v1
- Date: Tue, 25 Nov 2025 06:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.316872
- Title: $\text{R}^2\text{R}$: A Route-to-Rerank Post-Training Framework for Multi-Domain Decoder-Only Rerankers
- Title(参考訳): $\text{R}^2\text{R}$: Multi-Domain Decoder-Only Rerankers のための Route-to-Rerank Post-Training Framework
- Authors: Xinyu Wang, Hanwei Wu, Qingchen Hu, Zhenghan Tai, Jingrui Tian, Lei Ding, Jijun Chi, Hailin He, Tung Sum Thomas Kwok, Yufei Cui, Sicheng Lyu, Muzhi Li, Mingze Li, Xinyue Yu, Ling Zhou, Peng Lu,
- Abstract要約: 動的エキスパートルーティングと2段階のトレーニング戦略を組み合わせたドメイン認識フレームワークであるR2Rを紹介する。
ドメインエキスパートを効率的に活性化するために、R2Rは軽量のLatent Semantic Routerを使用している。
以上の結果から,R2Rは強いドメイン間ロバスト性を持つドメイン特殊化に対するモデルに依存しないモジュラーアプローチであることが確認された。
- 参考スコア(独自算出の注目度): 14.52446670807422
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decoder-only rerankers are central to Retrieval-Augmented Generation (RAG). However, generalist models miss domain-specific nuances in high-stakes fields like finance and law, and naive fine-tuning causes surface-form overfitting and catastrophic forgetting. To address this challenge, we introduce R2R, a domain-aware framework that combines dynamic expert routing with a two-stage training strategy, Entity Abstraction for Generalization (EAG). EAG introduces a counter-shortcut mechanism by masking the most predictive surface cues, forcing the reranker to learn domain-invariant relevance patterns rather than memorizing dataset-specific entities. To efficiently activate domain experts, R2R employs a lightweight Latent Semantic Router that probes internal representations from the frozen backbone decoder to select the optimal LoRA expert per query. Extensive experiments across different reranker backbones and diverse domains (legal, medical, and financial) demonstrate that R2R consistently surpasses generalist and single-domain fine-tuned baselines. Our results confirm that R2R is a model-agnostic and modular approach to domain specialization with strong cross-domain robustness.
- Abstract(参考訳): デコーダのみのリランカは、Retrieval-Augmented Generation (RAG)の中心である。
しかし、ジェネラリストモデルは、金融や法律のような高度な分野におけるドメイン固有のニュアンスを見逃し、微調整が表面的なオーバーフィットと破滅的な忘れを生じさせる。
この課題に対処するために、動的エキスパートルーティングと2段階のトレーニング戦略であるEntity Abstraction for Generalization(EAG)を組み合わせたドメイン対応フレームワークであるR2Rを紹介します。
EAGは、最も予測可能なサーフェスキューをマスクすることで、逆ショートカット機構を導入し、リランカはデータセット固有のエンティティを記憶するのではなく、ドメイン不変の関連パターンを学習せざるを得ない。
ドメインエキスパートを効率的に活性化するために、R2Rは軽量のLatent Semantic Routerを使用して、冷凍バックボーンデコーダから内部表現をプローブし、クエリ毎に最適なLoRAエキスパートを選択する。
異なるリランカのバックボーンと多種多様なドメイン(法、医療、財務)にわたる広範な実験により、R2Rは一般および単一ドメインの微調整ベースラインを一貫して超えることを示した。
以上の結果から,R2Rは強いドメイン間ロバスト性を持つドメイン特殊化に対するモデルに依存しないモジュラーアプローチであることが確認された。
関連論文リスト
- LLM-EDT: Large Language Model Enhanced Cross-domain Sequential Recommendation with Dual-phase Training [53.539682966282534]
クロスドメインシーケンスレコメンデーション (CDSR) は、様々なドメインからの情報を取り入れることで、ユーザとイテムのインタラクションを強化するために提案されている。
現在の進歩にもかかわらず、不均衡問題と移行問題はCDSRのさらなる発展を妨げる。
デュアルフェーズトレーニング(LLM-EDT)によるLLMの拡張型クロスドメインシーケンスレコメンデーションを提案する。
論文 参考訳(メタデータ) (2025-11-25T05:18:04Z) - RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。
既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。
本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-06T16:22:52Z) - DEER: Disentangled Mixture of Experts with Instance-Adaptive Routing for Generalizable Machine-Generated Text Detection [21.449323711668487]
ドメイン固有のMGTパターンとドメイン一般MGTパターンの両方をキャプチャする新しいフレームワークを提案する。
我々は、ドメイン固有の専門家が人間と機械が生成するテキストのドメイン局所的な微粒化を学習する、エキスパートの混在モジュールを紹介した。
また、各入力インスタンスに対して適切な専門家を動的に選択する強化学習に基づくルーティング機構を設計する。
論文 参考訳(メタデータ) (2025-11-03T03:36:48Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Role Prompting Guided Domain Adaptation with General Capability Preserve
for Large Language Models [55.51408151807268]
特定のドメインに合わせると、LLM(Large Language Models)は破滅的な忘れを経験する傾向がある。
同時に複数のドメインのための汎用モデルを構築することで、全体的なパフォーマンスが低下することが多い。
RolE Prompting Guided Multi-Domain Adaptation (REGA) 戦略を提案する。
論文 参考訳(メタデータ) (2024-03-05T08:22:41Z) - Adversarial Bi-Regressor Network for Domain Adaptive Regression [52.5168835502987]
ドメインシフトを軽減するために、クロスドメインレグレッタを学ぶことが不可欠です。
本稿では、より効果的なドメイン間回帰モデルを求めるために、ABRNet(Adversarial Bi-Regressor Network)を提案する。
論文 参考訳(メタデータ) (2022-09-20T18:38:28Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。