論文の概要: Predicting LLM Reasoning Performance with Small Proxy Model
- arxiv url: http://arxiv.org/abs/2509.21013v2
- Date: Tue, 30 Sep 2025 11:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.838786
- Title: Predicting LLM Reasoning Performance with Small Proxy Model
- Title(参考訳): 小型プロキシモデルによるLLM推論性能の予測
- Authors: Woosung Koh, Juyoung Suk, Sungjun Han, Se-Young Yun, Jamin Shin,
- Abstract要約: 本研究では,小プロキシが事前学習対象と目標タスクとより緊密に連携することで,大規模モデルの推論を効果的に予測できることを示す。
rBridgeは、フロンティアモデルからの推論トレースをゴールドラベルとして使用して、負のログライクな部分をタスクアライメントで重み付けすることでこれを実現している。
- 参考スコア(独自算出の注目度): 37.16153033741848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the prohibitive cost of pre-training large language models, it is essential to leverage smaller proxy models to optimize datasets before scaling up. However, this approach becomes challenging for reasoning capabilities, which exhibit emergent behavior that only appear reliably at larger model sizes, often exceeding 7B parameters. To address this, we introduce rBridge, showing that small proxies ($\leq$1B) can effectively predict large-model reasoning by aligning more closely with (1) the pre-training objective and (2) the target task. rBridge achieves this by weighting negative log-likelihood with task alignment, using reasoning traces from frontier models as gold labels. In our experiments, rBridge (i) reduces dataset ranking costs by over 100x relative to the best baseline, (ii) achieves the strongest correlation across six reasoning benchmarks at 1B to 32B scale, and (iii) zero-shot transfers predictive relationships across pre-training datasets at 1B to 7B scale. These findings indicate that rBridge offers a practical path for exploring reasoning-oriented pre-training at lower cost.
- Abstract(参考訳): 大規模な言語モデルの事前トレーニングの禁止コストを考えると、スケールアップ前にデータセットを最適化するためには、より小さなプロキシモデルを活用することが不可欠である。
しかし、このアプローチは、しばしば7Bパラメータを超える大きなモデルサイズでしか確実に現れない創発的な振る舞いを示す推論能力にとって困難になる。
これを解決するために、rBridgeを導入し、(1)事前学習目標と(2)目標タスクとをより緊密に整合させることで、小さなプロキシ($1B)が大規模モデルの推論を効果的に予測できることを示す。
rBridgeは、フロンティアモデルからの推論トレースをゴールドラベルとして使用して、負のログライクな部分をタスクアライメントで重み付けすることでこれを実現している。
我々の実験では、rBridge
(i)ベストベースラインと比較してデータセットランキングコストを100倍以上削減する。
(II)1Bから32Bスケールの6つの推論ベンチマークで最強相関を達成し,
3)ゼロショット転送は,事前学習データセット間の予測関係を1Bから7Bスケールで転送する。
これらの結果から,rBridgeは推論指向の事前学習を低コストで行うための実践的な道筋であることが示唆された。
関連論文リスト
- CLGRPO: Reasoning Ability Enhancement for Small VLMs [4.551310348498266]
SVLM(Small Vision Language Models)は、一般にパラメータサイズが2B未満のモデルを指す。
本稿では,SVLMの推論能力を高めるために,インクリメンタルトレーニング戦略(Incrmental Training Strategy)と呼ばれるポストトレーニング後の最適化パラダイムを提案する。
実験により,本手法は1B SVLMの推論能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-22T14:32:15Z) - How to Train a Model on a Cheap Cluster with Low Cost using Block Coordinate Descent [6.656447422471792]
大きな言語モデルのトレーニングには、大規模なメモリと相当な財政的投資が必要であり、これは多くの中小規模チームにとって障壁となる。
エンジニアリング最適化によって強化されたブロック座標降下(DBC)に基づく,高コストな4090GPUクラスタ上で大規模モデルを効率的にトレーニングするための,フルエンタブルな事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T03:05:54Z) - DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文 参考訳(メタデータ) (2025-04-15T17:02:15Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Balancing Act: Constraining Disparate Impact in Sparse Models [20.058720715290434]
本研究では,プルーニングの異なる影響に直接対処する制約付き最適化手法を提案する。
我々の定式化は、各部分群に対する密度モデルとスパースモデルの間の精度変化を束縛する。
実験により,本手法は大規模モデルや数百の保護されたサブグループに関わる問題に対して確実にスケール可能であることが示された。
論文 参考訳(メタデータ) (2023-10-31T17:37:35Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。