Fugu-MT 論文翻訳(概要): Tool-Augmented Reward Modeling

論文の概要: Tool-Augmented Reward Modeling

arxiv url: http://arxiv.org/abs/2310.01045v2
Date: Sun, 11 Feb 2024 16:58:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 22:19:17.372546
Title: Tool-Augmented Reward Modeling
Title（参考訳）: ツール強化リワードモデリング
Authors: Lei Li, Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Ningyu Zhang, Hua Wu
Abstract要約: 本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
参考スコア（独自算出の注目度）: 58.381678612409
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward modeling (a.k.a., preference modeling) is instrumental for aligning large language models with human preferences, particularly within the context of reinforcement learning from human feedback (RLHF). While conventional reward models (RMs) have exhibited remarkable scalability, they oft struggle with fundamental functionality such as arithmetic computation, code execution, and factual lookup. In this paper, we propose a tool-augmented preference modeling approach, named Themis, to address these limitations by empowering RMs with access to external environments, including calculators and search engines. This approach not only fosters synergy between tool utilization and reward grading but also enhances interpretive capacity and scoring reliability. Our study delves into the integration of external tools into RMs, enabling them to interact with diverse external sources and construct task-specific tool engagement and reasoning traces in an autoregressive manner. We validate our approach across a wide range of domains, incorporating seven distinct external tools. Our experimental results demonstrate a noteworthy overall improvement of 17.7% across eight tasks in preference ranking. Furthermore, our approach outperforms Gopher 280B by 7.3% on TruthfulQA task in zero-shot evaluation. In human evaluations, RLHF trained with Themis attains an average win rate of 32% when compared to baselines across four distinct tasks. Additionally, we provide a comprehensive collection of tool-related RM datasets, incorporating data from seven distinct tool APIs, totaling 15,000 instances. We have made the code, data, and model checkpoints publicly available to facilitate and inspire further research advancements\footnote{\url{https://github.com/ernie-research/Tool-Augmented-Reward-Model}}.
Abstract（参考訳）: 報酬モデリング(別名、選好モデリング)は、大きな言語モデルと人間の選好を、特に人的フィードバック(rlhf)からの強化学習の文脈において協調させるのに役立つ。従来の報酬モデル(rms)は顕著なスケーラビリティを示したが、算術計算、コード実行、事実の検索といった基本的な機能に苦しむことはなかった。本稿では,計算機や検索エンジンなど外部環境へのアクセスをRMに委ねることで,これらの制約に対処するツール強化された嗜好モデリング手法であるThemisを提案する。このアプローチはツールの利用と報酬評価のシナジーを育むだけでなく、解釈能力とスコアリングの信頼性を高める。本研究は,外部ツールとrmsを統合することで,様々な外部ソースとのインタラクションを可能にし,タスク固有のツールの関与やトレースの推論を自己回帰的に構築する。幅広いドメインにまたがるアプローチを検証し、7つの異なる外部ツールを取り込んでいます。評価実験の結果,8タスク中17.7%の総合的改善がみられた。さらに,ゼロショット評価ではgopher 280bを7.3%上回っている。人間の評価では、テミスで訓練されたrlhfは4つの異なるタスクのベースラインと比較して平均勝利率32%に達する。さらに,7つの異なるツールapiからのデータを取り込んだ,ツール関連のrmデータセットの包括的なコレクションも提供しています。私たちは、コード、データ、モデルのチェックポイントを公開し、さらなる研究の進展を促進および刺激しました。

関連論文リスト

Integrating External Tools with Large Language Models to Improve Accuracy [0.0]
関連した文脈情報がないと、大きな言語モデル(LLM)は質の悪い応答を提供するか、幻覚を起こす傾向があることはよく知られている。いくつかのイニシアチブは、LCMを外部ツールに統合して、正確性を改善するために最新のデータを提供することを提案している。本稿では,学習環境における問合せに対するLLMの能力を高めるために,外部ツールを統合するフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-09T04:09:59Z)
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。モデルは400のトレーニングステップで67%の精度を達成する。注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文参考訳（メタデータ） (2025-04-15T18:10:22Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark [0.0]
マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。 ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
論文参考訳（メタデータ） (2025-01-02T15:10:52Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T07:58:05Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文参考訳（メタデータ） (2024-02-28T10:43:54Z)
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文参考訳（メタデータ） (2023-09-29T17:59:38Z)
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。 Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文参考訳（メタデータ） (2021-04-17T23:29:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。