論文の概要: R3: Robust Rubric-Agnostic Reward Models
- arxiv url: http://arxiv.org/abs/2505.13388v1
- Date: Mon, 19 May 2025 17:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.769032
- Title: R3: Robust Rubric-Agnostic Reward Models
- Title(参考訳): R3:Robust Rubric-Agnostic Reward Models
- Authors: David Anugraha, Zilu Tang, Lester James V. Miranda, Hanyang Zhao, Mohammad Rifqi Farhansyah, Garry Kuwanto, Derry Wijaya, Genta Indra Winata,
- Abstract要約: R3は、古めかしく、評価次元にまたがって一般化可能で、解釈可能な、推論されたスコアの割り当てを提供する、新しい報酬モデリングフレームワークである。
私たちのモデル、データ、コードはhttps://github.com/rubricreward/r3.comでオープンソースとして公開されています。
- 参考スコア(独自算出の注目度): 10.518559938757184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are essential for aligning language model outputs with human preferences, yet existing approaches often lack both controllability and interpretability. These models are typically optimized for narrow objectives, limiting their generalizability to broader downstream tasks. Moreover, their scalar outputs are difficult to interpret without contextual reasoning. To address these limitations, we introduce R3, a novel reward modeling framework that is rubric-agnostic, generalizable across evaluation dimensions, and provides interpretable, reasoned score assignments. R3 enables more transparent and flexible evaluation of language models, supporting robust alignment with diverse human values and use cases. Our models, data, and code are available as open source at https://github.com/rubricreward/r3
- Abstract(参考訳): リワードモデルは言語モデルの出力を人間の好みに合わせるのに不可欠であるが、既存のアプローチでは制御性と解釈性の両方が欠けていることが多い。
これらのモデルは典型的には狭い目的のために最適化され、より広い下流のタスクに一般化性を制限する。
さらに、スカラー出力は文脈的推論なしでは解釈が困難である。
これらの制約に対処するため、R3は、古めかしく、評価次元にまたがって一般化可能で、解釈可能な、推論されたスコアの割り当てを提供する、新しい報酬モデリングフレームワークである。
R3は、より透過的で柔軟な言語モデルの評価を可能にし、多様な人間の価値とユースケースとの堅牢なアライメントをサポートする。
私たちのモデル、データ、コードはhttps://github.com/rubricreward/r3でオープンソースとして公開されています。
関連論文リスト
- Relic: Enhancing Reward Model Generalization for Low-Resource Indic Languages with Few-Shot Examples [58.55904048776596]
ほとんどのオープンソースの多言語報酬モデルは、主にオープンソース言語の好みデータセットに基づいて訓練されている。
低リソースIndic言語における報酬モデリングのための新しい文脈内学習フレームワークであるRELICを提案する。
論文 参考訳(メタデータ) (2025-06-19T17:56:16Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [28.234859617081295]
RecSAEは、Sparse AutoEncoderでRecommendersを解釈する自動化され、一般化可能なプローブフレームワークである。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - RDR: the Recap, Deliberate, and Respond Method for Enhanced Language
Understanding [6.738409533239947]
Recap、Deliberate、Respond(RDR)パラダイムは、ニューラルネットワークパイプラインに3つの異なる目的を組み込むことで、この問題に対処する。
これら3つのモデルをカスケードすることにより、ベンチマークをゲームする可能性を軽減し、基盤となるセマンティックパターンをキャプチャする堅牢な方法を確立する。
その結果,標準基準値の最大2%向上とともに,競争基準値と比較して性能が向上した。
論文 参考訳(メタデータ) (2023-12-15T16:41:48Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - An Understanding-Oriented Robust Machine Reading Comprehension Model [12.870425062204035]
本稿では,3種類のロバスト性問題に対処する理解指向機械読解モデルを提案する。
具体的には、入力された質問の正確な意味を理解するために、まず自然言語推論モジュールを使用します。
第3に,一般化の問題に対処する多言語学習機構を提案する。
論文 参考訳(メタデータ) (2022-07-01T03:32:02Z) - Combining Discrete Choice Models and Neural Networks through Embeddings:
Formulation, Interpretability and Performance [10.57079240576682]
本研究では、ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しいアプローチを提案する。
特に、分類的または離散的説明変数を符号化するために、埋め込みと呼ばれる連続ベクトル表現を用いる。
我々のモデルは最先端の予測性能を提供し、既存のANNモデルよりも優れ、必要なネットワークパラメータの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-09-24T15:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。