論文の概要: Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
- arxiv url: http://arxiv.org/abs/2503.04378v1
- Date: Thu, 06 Mar 2025 12:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.825837
- Title: Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
- Title(参考訳): オープンエンドジェネラルドメインタスクの推論時間スケーリングを生かしたDedicated Feedback and Edit Model
- Authors: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev,
- Abstract要約: 推論時間スケーリングは、OpenAI o1やDeepSeek R1といった最近のモデルの成功に不可欠である。
私たちは、人間が最初に試みる方法からインスピレーションを得て、他の人から詳細なフィードバックを求め、そのようなフィードバックに基づいて改善します。
Arena EloのベンチマークであるArena Hardのパフォーマンスは、初期レスポンスドラフトの数、効果的なフィードバック、編集されたレスポンスをスケールすることで向上できることを示す。
- 参考スコア(独自算出の注目度): 7.686622572497795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-Time Scaling has been critical to the success of recent models such as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for inference-time scaling require tasks to have answers that can be verified, limiting their application to domains such as math, coding and logical reasoning. We take inspiration from how humans make first attempts, ask for detailed feedback from others and make improvements based on such feedback across a wide spectrum of open-ended endeavors. To this end, we collect data for and train dedicated Feedback and Edit Models that are capable of performing inference-time scaling for open-ended general-domain tasks. In our setup, one model generates an initial response, which are given feedback by a second model, that are then used by a third model to edit the response. We show that performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo can be boosted by scaling the number of initial response drafts, effective feedback and edited responses. When scaled optimally, our setup based on 70B models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7 as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and DeepSeek R1 with 92.3.
- Abstract(参考訳): 推論時間スケーリングは、OpenAI o1やDeepSeek R1といった最近のモデルの成功に不可欠である。
しかしながら、推論時間のスケーリングのためにモデルをトレーニングするために使用される多くのテクニックは、検証可能な回答を持つためにタスクを必要とし、それらのアプリケーションは数学、コーディング、論理的推論のような領域に制限される。
私たちは、人間が最初に試みる方法からインスピレーションを得て、他の人から詳細なフィードバックを求め、そのようなフィードバックに基づいて、幅広い範囲のオープンエンドな努力をすることで改善します。
この目的のために、我々は、オープンエンドの汎用ドメインタスクの推論時間スケーリングを実行可能な専用のフィードバックと編集モデルのためのデータを収集し、訓練する。
我々の設定では、1つのモデルが初期応答を生成し、2番目のモデルからフィードバックを受け取り、3番目のモデルによってレスポンスを編集するために使用される。
本稿では,Chatbot Arena Eloを強く予測するベンチマークであるArena Hardのパフォーマンスを,初期応答のドラフト数,効果的なフィードバック,編集されたレスポンスのスケールアップによって向上させることができることを示す。
Llama 3ファミリーの70Bモデルに基づくセットアップは、2025年10月5日時点で92.7で、OpenAI o1-preview-2024-09-12を90.4で、DeepSeek R1を92.3で上回りました。
関連論文リスト
- Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking [16.441081996257576]
本稿では, 簡易かつ効果的なテスト時間スケーリング手法としてマルチラウンド思考を提案する。
この方法は、その後のラウンドのプロンプトとして過去の回答を活用することにより、モデル推論を反復的に洗練する。
QwQ-32BやDeepSeek-R1など、複数のモデルにわたる実験は、一貫してパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2025-03-25T17:19:38Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Rank1: Test-Time Compute for Reranking in Information Retrieval [45.356614696154075]
Rank1はテスト時間計算を活用するためにトレーニングされた最初のリグレードモデルである。
我々は、MS MARCOのクエリやパスからのR1推論トレースの600,000以上のサンプルのデータセットを収集し、オープンソース化する。
論文 参考訳(メタデータ) (2025-02-25T18:14:06Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。