論文の概要: SibylSense: Adaptive Rubric Learning via Memory Tuning and Adversarial Probing
- arxiv url: http://arxiv.org/abs/2602.20751v1
- Date: Tue, 24 Feb 2026 10:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.713032
- Title: SibylSense: Adaptive Rubric Learning via Memory Tuning and Adversarial Probing
- Title(参考訳): SibylSense: メモリチューニングと逆探索による適応型ルーブリック学習
- Authors: Yifei Xu, Guilherme Potje, Shivam Shandilya, Tiancheng Yuan, Leonardo de Oliveira Nunes, Rakshanda Agarwal, Saeid Asgari, Adam Atkinson, Emre Kıcıman, Songwu Lu, Ranveer Chandra, Tusher Chakraborty,
- Abstract要約: SibylSenseは、検証済みのルーリックアイテムのチューナブルメモリバンクを介して冷凍ルーリックジェネレータを適応させる。
SibylSenseは、ルーブリックに満足する候補回答を生成するルーブリック-逆ポリシー更新とメモリチューニングを交互に行う。
- 参考スコア(独自算出の注目度): 12.008158955114062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing aligned and robust rewards for open-ended generation remains a key barrier to RL post-training. Rubrics provide structured, interpretable supervision, but scaling rubric construction is difficult: expert rubrics are costly, prompted rubrics are often superficial or inconsistent, and fixed-pool discriminative rubrics can saturate and drift, enabling reward hacking. We present SibylSense, an inference-time learning approach that adapts a frozen rubric generator through a tunable memory bank of validated rubric items. Memory is updated via verifier-based item rewards measured by reference-candidate answer discriminative gaps from a handful of examples. SibylSense alternates memory tuning with a rubric-adversarial policy update that produces rubric-satisfying candidate answers, shrinking discriminative gaps and driving the rubric generator to capture new quality dimensions. Experiments on two open-ended tasks show that SibylSense yields more discriminative rubrics and improves downstream RL performance over static and non-adaptive baselines.
- Abstract(参考訳): オープンエンド世代に対するアライメントとロバストな報酬を設計することは、RLポストトレーニングの重要な障壁である。
ルーブリックは構造的で解釈可能な監視を提供するが、ルーブリックのスケーリングは困難である。専門家のルーブリックはコストがかかり、引き起こされたルーブリックはしばしば表面的または矛盾し、固定プールの識別ルーブリックは飽和してドリフトし、報酬のハッキングを可能にする。
Inference-time Learning approach, an inference-time learning approach that adapts a frozen rubric generator through a tunable memory bank of confirmedd rubric items。
メモリは、いくつかの例から、参照候補回答の識別ギャップによって測定された検証者ベースのアイテム報酬によって更新される。
SibylSenseは、ルーブリックに満足する候補回答を生成し、差別的ギャップを小さくし、新しい品質ディメンションをキャプチャするためにルーブリックジェネレータを駆動するルーブリック・アドバイサルポリシー更新とメモリチューニングを交互に行う。
2つのオープンエンドタスクの実験により、SibylSenseはより差別的なルーリックを出力し、静的および非適応的ベースラインよりも下流のRL性能を改善する。
関連論文リスト
- Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric [10.220923271217632]
スカラー報酬モデルでは、多次元の人間の嗜好を1つの不透明スコアに圧縮する。
プラグ・アンド・プレイのルーブリックベースのLLM-as-a-JudgeフレームワークであるOpen System(OpenRS)を紹介する。
OpenRSは明示的なメタルブリックを使用します -- ガバナンスがどのようにインスタンス化され、重み付けされ、強制されるかという、コンスティチューションのような仕様です。
論文 参考訳(メタデータ) (2026-02-15T09:39:39Z) - Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges [39.6038287387348]
LLMに基づく審査員の行動は自然なルーリックによってガイドされ、ベンチマークで検証される。
我々は、このワークフローにおいて、事前に認識されていない脆弱性を識別し、このワークフローは、Preference Drift (RIPD) という用語で表現する。
我々は、この脆弱性を選好攻撃によって悪用できることを示し、そこでは、ベンチマーク準拠者が、固定された人間またはターゲットドメインの信頼された参照から、ステア判断を編集する。
論文 参考訳(メタデータ) (2026-02-14T03:19:14Z) - Differentiable Semantic ID for Generative Recommendation [65.83703273297492]
生成的推薦は、各項目がリッチコンテンツから学習された個別意味ID(SID)によって表現される新しいパラダイムを提供する。
実際には、SIDはレコメンデーションの正確さよりもコンテンツ再構成に最適化されるのが一般的である。
自然なアプローチは、セマンティックインデックスを差別化して、レコメンデーショングラデーションが直接SID学習に影響を与えるようにすることだ。
本稿では,ジェネレーティブレコメンデーションのための効果的な識別可能なセマンティックIDに向けた第一歩として,DIGERを提案する。
論文 参考訳(メタデータ) (2026-01-27T15:34:11Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Memory Regulation and Alignment toward Generalizer RGB-Infrared Person [24.2142124801929]
RGB-IR ReIDは、常に差別的機能を必要としており、見受けられるクラスの過度な機能感度をもたらす。
本稿では,この問題を解決するために,新しい多粒性メモリ制御およびアライメントモジュール(MG-MRA)を提案する。
本手法は,授業の識別的特徴に関するモデルの過度な信頼を緩和する。
論文 参考訳(メタデータ) (2021-09-18T05:55:06Z) - A Speaker Verification Backend with Robust Performance across Conditions [28.64769660252556]
話者検証の標準的な方法は、ディープニューラルネットワークを用いた話者埋め込みを抽出することである。
この方法は、キャリブレーションモデルのトレーニングに使用されるものと異なる条件でうまく動作しないシステムをもたらすことが知られている。
本稿では,入力の条件に適応するために,時間などの情報を自動的に抽出するアダプティブキャリブレータを導入することで,標準バックエンドを変更することを提案する。
論文 参考訳(メタデータ) (2021-02-02T21:27:52Z) - CRACT: Cascaded Regression-Align-Classification for Robust Visual
Tracking [97.84109669027225]
改良された提案改良モジュールCascaded Regression-Align- Classification (CRAC)を導入する。
CRACは多くのベンチマークで最先端のパフォーマンスを得る。
OTB-2015、UAV123、NfS、VOT-2018、TrackingNet、GOT-10k、LaSOTを含む7つのベンチマークの実験において、我々のCRACTは最先端の競合他社と比較して非常に有望な結果を示している。
論文 参考訳(メタデータ) (2020-11-25T02:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。