論文の概要: Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
- arxiv url: http://arxiv.org/abs/2503.04378v1
- Date: Thu, 06 Mar 2025 12:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:51.164068
- Title: Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
- Title(参考訳): オープンエンドジェネラルドメインタスクの推論時間スケーリングを生かしたDedicated Feedback and Edit Model
- Authors: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Daniel Egert, Ellie Evans, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev,
- Abstract要約: 推論時間スケーリングは、OpenAI o1やDeepSeek R1といった最近のモデルの成功に不可欠である。
私たちは、人間が最初に試みる方法からインスピレーションを得て、他の人から詳細なフィードバックを求め、そのようなフィードバックに基づいて改善します。
Arena EloのベンチマークであるArena Hardのパフォーマンスは、初期レスポンスドラフトの数、効果的なフィードバック、編集されたレスポンスをスケールすることで向上できることを示す。
- 参考スコア(独自算出の注目度): 7.686622572497795
- License:
- Abstract: Inference-Time Scaling has been critical to the success of recent models such as OpenAI o1 and DeepSeek R1. However, many techniques used to train models for inference-time scaling require tasks to have answers that can be verified, limiting their application to domains such as math, coding and logical reasoning. We take inspiration from how humans make first attempts, ask for detailed feedback from others and make improvements based on such feedback across a wide spectrum of open-ended endeavors. To this end, we collect data for and train dedicated Feedback and Edit Models that are capable of performing inference-time scaling for open-ended general-domain tasks. In our setup, one model generates an initial response, which are given feedback by a second model, that are then used by a third model to edit the response. We show that performance on Arena Hard, a benchmark strongly predictive of Chatbot Arena Elo can be boosted by scaling the number of initial response drafts, effective feedback and edited responses. When scaled optimally, our setup based on 70B models from the Llama 3 family can reach SoTA performance on Arena Hard at 92.7 as of 5 Mar 2025, surpassing OpenAI o1-preview-2024-09-12 with 90.4 and DeepSeek R1 with 92.3.
- Abstract(参考訳): 推論時間スケーリングは、OpenAI o1やDeepSeek R1といった最近のモデルの成功に不可欠である。
しかしながら、推論時間のスケーリングのためにモデルをトレーニングするために使用される多くのテクニックは、検証可能な回答を持つためにタスクを必要とし、それらのアプリケーションは数学、コーディング、論理的推論のような領域に制限される。
私たちは、人間が最初に試みる方法からインスピレーションを得て、他の人から詳細なフィードバックを求め、そのようなフィードバックに基づいて、幅広い範囲のオープンエンドな努力をすることで改善します。
この目的のために、我々は、オープンエンドの汎用ドメインタスクの推論時間スケーリングを実行可能な専用のフィードバックと編集モデルのためのデータを収集し、訓練する。
我々の設定では、1つのモデルが初期応答を生成し、2番目のモデルからフィードバックを受け取り、3番目のモデルによってレスポンスを編集するために使用される。
本稿では,Chatbot Arena Eloを強く予測するベンチマークであるArena Hardのパフォーマンスを,初期応答のドラフト数,効果的なフィードバック,編集されたレスポンスのスケールアップによって向上させることができることを示す。
Llama 3ファミリーの70Bモデルに基づくセットアップは、2025年10月5日時点で92.7で、OpenAI o1-preview-2024-09-12を90.4で、DeepSeek R1を92.3で上回りました。
関連論文リスト
- Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - Lightweight Boosting Models for User Response Prediction Using
Adversarial Validation [2.4040470282119983]
ShareChatが主催するACM RecSys Challenge 2023は、アプリがインストールされる確率を予測することを目的としている。
本稿では,この課題に対する軽量な解決策について述べる。
論文 参考訳(メタデータ) (2023-10-05T13:57:05Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。