論文の概要: OG-Rank: Learning to Rank Fast and Slow with Uncertainty and Reward-Trend Guided Adaptive Exploration
- arxiv url: http://arxiv.org/abs/2510.17614v1
- Date: Mon, 20 Oct 2025 15:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.491772
- Title: OG-Rank: Learning to Rank Fast and Slow with Uncertainty and Reward-Trend Guided Adaptive Exploration
- Title(参考訳): OG-Rank:不確かさと逆行ガイドによる適応的探索で高速でスローなランク付けを学ぶ
- Authors: Praphul Singh, Corey Barrett, Sumana Srivasta, Irfan Bulu, Sri Gadde, Krishnaram Kenthapadi,
- Abstract要約: 臨床医は、リアルタイムで機能し、選択を正当化するランキングシステムが必要です。
OG-Rank は単復号器方式で、プールされた第一音素信号と不確実な説明ステップとをペアリングする。
モデルは、全ての候補を1回のパスでスコア付けし、リストが真に曖昧である場合にのみ、短い構造化された論理を生成する。
- 参考スコア(独自算出の注目度): 5.524931642256774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Clinicians need ranking systems that work in real time and still justify their choices. Motivated by the need for a low-latency, decoder-based reranker, we present OG-Rank, a single-decoder approach that pairs a pooled first-token scoring signal with an uncertainty-gated explanation step. The model scores all candidates in one pass and generates a brief, structured rationale only when the list is genuinely ambiguous, keeping latency predictable. Trained with a curriculum that concentrates effort on hard cases, OG-Rank delivers strong effectiveness on encounter-scoped order selection (fast path: Recall@1~0.45, nDCG@20~0.625) and improves further when the gate activates (Recall@1~0.56, nDCG@20~0.699 at a 45\% gate rate), while compact backbones show similar gains under the same policy. Encoder baselines trail in both effectiveness and flexibility. The result is a practical recipe: rank fast by default and explain when it helps, a pattern that applies broadly to decision tasks where selective generation buys accuracy at acceptable cost. The single-policy design simplifies deployment and budget planning, and the curriculum principle (spend more on the hard cases, less on the easy ones) readily transfers beyond clinical order selection.
- Abstract(参考訳): 臨床医は、リアルタイムで機能し、選択を正当化するランキングシステムが必要です。
低レイテンシデコーダベースのリランカの必要性に感銘を受けて,プールしたファーストトーンスコア信号と不確実な説明ステップとをペアリングする単一デコーダアプローチであるOG-Rankを提案する。
モデルは、全ての候補を1回のパスでスコア付けし、リストが真に曖昧でレイテンシが予測可能である場合にのみ、短い構造化された論理を生成する。
ハードケースに力を注ぐカリキュラムで訓練されたOG-Rankは、遭遇スコープのオーダー選択(高速パス: Recall@1~0.45, nDCG@20~0.625)に強い効果をもたらし、ゲートのアクティベート(Recall@1~0.56, nDCG@20~0.699)が45倍のゲートレートで起動するとさらに改善される(Recall@1~0.56, nDCG@20~0.699)。
エンコーダは、有効性と柔軟性の両方を基本とする。
このパターンは、選択された生成が許容されるコストで正確さを取得する決定タスクに広く適用される。
単一政治設計は、展開と予算計画を単純化し、カリキュラムの原則(ハードケースよりも多く、簡単なものよりも少ない)は、容易に臨床の順序選択を超えて移行する。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Reinforcement Speculative Decoding for Fast Ranking [9.584558586988953]
大規模言語モデル (LLM) は情報検索 (IR) システムやレコメンダシステム (RS) などのランキングシステムで広く採用されている。
LLMの高速ランキング推定のための強化復号法を提案する。
論文 参考訳(メタデータ) (2025-05-23T02:25:26Z) - Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。
METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。
敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文 参考訳(メタデータ) (2025-05-21T20:57:16Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。