論文の概要: Tool-Augmented Reward Modeling
- arxiv url: http://arxiv.org/abs/2310.01045v2
- Date: Sun, 11 Feb 2024 16:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 22:19:17.372546
- Title: Tool-Augmented Reward Modeling
- Title(参考訳): ツール強化リワードモデリング
- Authors: Lei Li, Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Ningyu Zhang, Hua
Wu
- Abstract要約: 本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
- 参考スコア(独自算出の注目度): 58.381678612409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward modeling (a.k.a., preference modeling) is instrumental for aligning
large language models with human preferences, particularly within the context
of reinforcement learning from human feedback (RLHF). While conventional reward
models (RMs) have exhibited remarkable scalability, they oft struggle with
fundamental functionality such as arithmetic computation, code execution, and
factual lookup. In this paper, we propose a tool-augmented preference modeling
approach, named Themis, to address these limitations by empowering RMs with
access to external environments, including calculators and search engines. This
approach not only fosters synergy between tool utilization and reward grading
but also enhances interpretive capacity and scoring reliability. Our study
delves into the integration of external tools into RMs, enabling them to
interact with diverse external sources and construct task-specific tool
engagement and reasoning traces in an autoregressive manner. We validate our
approach across a wide range of domains, incorporating seven distinct external
tools. Our experimental results demonstrate a noteworthy overall improvement of
17.7% across eight tasks in preference ranking. Furthermore, our approach
outperforms Gopher 280B by 7.3% on TruthfulQA task in zero-shot evaluation. In
human evaluations, RLHF trained with Themis attains an average win rate of 32%
when compared to baselines across four distinct tasks. Additionally, we provide
a comprehensive collection of tool-related RM datasets, incorporating data from
seven distinct tool APIs, totaling 15,000 instances. We have made the code,
data, and model checkpoints publicly available to facilitate and inspire
further research
advancements\footnote{\url{https://github.com/ernie-research/Tool-Augmented-Reward-Model}}.
- Abstract(参考訳): 報酬モデリング(別名、選好モデリング)は、大きな言語モデルと人間の選好を、特に人的フィードバック(rlhf)からの強化学習の文脈において協調させるのに役立つ。
従来の報酬モデル(rms)は顕著なスケーラビリティを示したが、算術計算、コード実行、事実の検索といった基本的な機能に苦しむことはなかった。
本稿では,計算機や検索エンジンなど外部環境へのアクセスをRMに委ねることで,これらの制約に対処するツール強化された嗜好モデリング手法であるThemisを提案する。
このアプローチはツールの利用と報酬評価のシナジーを育むだけでなく、解釈能力とスコアリングの信頼性を高める。
本研究は,外部ツールとrmsを統合することで,様々な外部ソースとのインタラクションを可能にし,タスク固有のツールの関与やトレースの推論を自己回帰的に構築する。
幅広いドメインにまたがるアプローチを検証し、7つの異なる外部ツールを取り込んでいます。
評価実験の結果,8タスク中17.7%の総合的改善がみられた。
さらに,ゼロショット評価ではgopher 280bを7.3%上回っている。
人間の評価では、テミスで訓練されたrlhfは4つの異なるタスクのベースラインと比較して平均勝利率32%に達する。
さらに,7つの異なるツールapiからのデータを取り込んだ,ツール関連のrmデータセットの包括的なコレクションも提供しています。
私たちは、コード、データ、モデルのチェックポイントを公開し、さらなる研究の進展を促進および刺激しました。
関連論文リスト
- CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Mitigating Reward Hacking via Information-Theoretic Reward Modeling [70.26019860948114]
本稿では,報酬モデリングのための汎用的で堅牢なフレームワークであるInfoRMを提案する。
我々は,潜伏空間における過最適化と外れ値の相関を同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - I^2R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose
Estimation [30.204633647947293]
マルチパーソン・ポーズ推定のためのイントラ・イントラ・ヒューマン・リレーショナル・ネットワーク(I2R-Net)を提案する。
まず、Human内リレーショナルモジュールは1人で動作し、Human内依存関係をキャプチャすることを目的としている。
第2に、Human間関係モジュールは複数のインスタンス間の関係を考慮し、Human間相互作用のキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2022-06-22T07:44:41Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。