論文の概要: Scaling Unverifiable Rewards: A Case Study on Visual Insights
- arxiv url: http://arxiv.org/abs/2512.22650v1
- Date: Sat, 27 Dec 2025 17:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.159787
- Title: Scaling Unverifiable Rewards: A Case Study on Visual Insights
- Title(参考訳): 検証不能なリワードのスケールアップ - Visual Insightsのケーススタディ
- Authors: Shuyu Gan, James Mooney, Pan Hao, Renxiang Wang, Mingyi Hong, Qianwen Wang, Dongyeop Kang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、テスト時間スケーリング(TTS)を通じて複雑な推論を自動化することができる。
Selective TTSは、マルチエージェントパイプラインの異なるステージにまたがって推論をスケールするプロセスベースの精錬フレームワークである。
提案した選択的TSは,計算予算の固定化により洞察品質を向上し,平均スコアを61.64から65.86に向上し,分散を低減した。
- 参考スコア(独自算出の注目度): 29.54766251030519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents can increasingly automate complex reasoning through Test-Time Scaling (TTS), iterative refinement guided by reward signals. However, many real-world tasks involve multi-stage pipeline whose final outcomes lack verifiable rewards or sufficient data to train robust reward models, making judge-based refinement prone to accumulate error over stages. We propose Selective TTS, a process-based refinement framework that scales inference across different stages in multi-agent pipeline, instead of repeated refinement over time by prior work. By distributing compute across stages and pruning low-quality branches early using process-specific judges, Selective TTS mitigates the judge drift and stabilizes refinement. Grounded in the data science pipeline, we build an end-to-end multi-agent pipeline for generating visually insightful charts and report of given dataset, and design a reliable LLM-based judge model, aligned with human experts (Kendall's τ=0.55). Our proposed selective TTS then improves insight quality under a fixed compute budget, increasing mean scores from 61.64 to 65.86 while reducing variance. We hope our findings serve as the first step toward to scaling complex, open-ended tasks with unverifiable rewards, such as scientific discovery and story generation.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、報酬信号によって導かれる反復的改善であるテスト時間スケーリング(TTS)を通じて、複雑な推論を自動化することができる。
しかし、現実のタスクの多くは、最終的な成果が検証可能な報酬や堅牢な報酬モデルをトレーニングするのに十分なデータに欠ける多段階パイプラインを含んでいるため、審査に基づく改善はステージを超えてエラーを蓄積しがちである。
Selective TTSは,マルチエージェントパイプラインの異なるステージで推論をスケールするプロセスベースの精細化フレームワークであり,前処理による繰り返し精細化ではなく,Selective TTSを提案する。
Selective TTSは、段階的に計算を分散し、プロセス固有の判断を用いて早期に品質の低い分岐を刈り取ることにより、裁判官のドリフトを緩和し、洗練を安定化させる。
データサイエンスパイプラインに基盤を置き、視覚的に洞察力のあるチャートとデータセットのレポートを生成するエンドツーエンドのマルチエージェントパイプラインを構築し、人間の専門家に合わせた信頼性の高いLCMベースの判断モデル(Kendallのτ=0.55)を設計する。
提案した選択的TSは,計算予算の固定化により洞察品質を向上し,平均スコアを61.64から65.86に向上し,分散を低減した。
私たちの発見が、科学的発見やストーリー生成など、検証不可能な報奨を伴う複雑でオープンなタスクのスケールアップに向けた第一歩になることを願っています。
関連論文リスト
- FR-TTS: Test-Time Scaling for NTP-based Image Generation with Effective Filling-based Reward Signal [26.72622200307507]
テスト時間スケーリング(TTS)は画像生成において一般的な技術となり、出力品質を大幅に向上させた。
しかし、この強力な方法論を次世代の予測パラダイムに適用することは依然として難しい。
中間試料のほぼ将来軌跡を推定するために,フィリング・ベース・リワード (FR) を導入する。
複数の確立されたベンチマークと様々な報酬モデルに対するFR-TTSの優位性を実験的に検証した。
論文 参考訳(メタデータ) (2025-11-29T10:34:16Z) - BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation [48.61855865678161]
視覚的自己回帰(VAR)モデルのための、最初の一般的なテスト時間スケーリングフレームワークを提示する。
クラスタリングに基づく多様性探索と再サンプリングに基づく潜在的選択を提案する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善を示している。
論文 参考訳(メタデータ) (2025-07-24T16:04:55Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Scalable Bayesian Tensor Ring Factorization for Multiway Data Analysis [24.04852523970509]
非パラメトリック乗算ガンマプロセス(MGP)を前もって組み込んだ新しいBTRモデルを提案する。
離散データを扱うために、クローズドフォーム更新のためのP'olya-Gamma拡張を導入する。
そこで我々は,従来のVIアルゴリズムの計算複雑性を2桁に減らした,一貫した後続シミュレーションのための効率的なギブスサンプリング器を開発した。
論文 参考訳(メタデータ) (2024-12-04T13:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。