論文の概要: Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph
- arxiv url: http://arxiv.org/abs/2511.00086v1
- Date: Wed, 29 Oct 2025 22:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.573603
- Title: Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph
- Title(参考訳): 最適グラフとしてのテスト時間計算最適スケーリングの一般化
- Authors: Fali Wang, Jihai Chen, Shuhua Yang, Runxue Bao, Tianxiang Zhao, Zhiwei Zhang, Xianfeng Tang, Hui Liu, Qi He, Suhang Wang,
- Abstract要約: テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大きな言語モデル(LLM)を改善する。
ノードが役割とモデルの割り当てをエンコードし、エッジが情報フローをキャプチャするマルチLLMコラボレーティブグラフとして形式化します。
本稿では,サンプリング-段階更新からサンプリング-フィードバック更新にマッピングすることで,ReINFORCEパイプラインを反映したLLMエージェント拡張フレームワークであるAgent-REINFORCEを提案する。
- 参考スコア(独自算出の注目度): 42.247964605609745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Scaling (TTS) improves large language models (LLMs) by allocating additional computation during inference, typically through parallel, sequential, or hybrid scaling. However, prior studies often assume fixed collaboration architectures (e.g., topologies) and single-model usage, overlooking that optimal architectures and model combinations can vary across tasks. Therefore, we study the novel problem of searching for compute-optimal model combinations and architectures in TTS under a fixed budget. We formalize it as a multi-LLM collaboration graph, where nodes encode roles and LLM model assignments, and edges capture information flow. This problem is challenging because (i) the combinatorial search space is prohibitively large, and (ii) task-specific requirements demand tailored designs. To address these, we reformulate the problem as probabilistic graph optimization and, through pilot experiments, derive three empirical insights into TTS collaboration graphs. Guided by these insights, we propose Agent-REINFORCE, an LLM-agent-augmented framework that mirrors the REINFORCE pipeline by mapping sampling-gradient-update to sampling-feedback-update, where feedback serves as a textual gradient to update the probabilistic graph and efficiently search for optimal multi-LLM collaboration graphs. Experiments show that Agent-REINFORCE outperforms both traditional and LLM-based baselines in sample efficiency and search performance, and effectively identifies optimal graphs under joint objectives of accuracy and inference latency.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)を改善し、推論中に、通常、並列、シーケンシャル、ハイブリッドスケーリングを通じて、さらなる計算を割り当てる。
しかしながら、先行研究では、最適なアーキテクチャとモデルの組み合わせがタスクによって異なることを見越して、固定されたコラボレーションアーキテクチャ(例えば、トポロジ)と単一モデルの使用を想定しています。
そこで本研究では,TTSにおける計算-最適モデルの組み合わせとアーキテクチャを固定予算で探索する新たな課題について検討する。
ノードがロールとLLMモデルの割り当てをエンコードし、エッジが情報フローをキャプチャするマルチLLMコラボレーティブグラフとして形式化する。
この問題は難しいです
(i)組合せ探索空間は禁止的に大きく、
(二)タスク固有の要件は、調整された設計を要求する。
これらの問題に対処するために、確率的グラフ最適化として問題を再構築し、パイロット実験を通じて、TS協調グラフに関する3つの経験的洞察を導出する。
これらの知見に導かれたエージェント-ReINFORCEは,サンプリング-段階更新をサンプリング-フィードバック-更新にマッピングすることで,REINFORCEパイプラインを反映するLLMエージェント拡張フレームワークであり,フィードバックは確率グラフを更新し,最適なマルチLLM協調グラフを効率的に検索するためのテキスト勾配として機能する。
実験の結果、Agent-REINFORCEはサンプル効率と探索性能において従来のLLMベースのベースラインよりも優れており、精度と推論遅延の合同目的の下で最適なグラフを効果的に識別できることがわかった。
関連論文リスト
- ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension [15.798942458550515]
本研究では、視覚的推論データセットを生成するための自動多段階コード駆動パイプラインを提案する。
トレーニング用38Kチャートと142KQ&Aペアを含む多次元・多段階データセットであるChartM$3$と,高品質な評価サンプル2,871。
論文 参考訳(メタデータ) (2025-11-04T09:45:34Z) - GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Rel-HNN: Split Parallel Hypergraph Neural Network for Learning on Relational Databases [3.6423651166048874]
データベースのフラット化は、ディープラーニングモデルに課題をもたらす。
我々はrel-HNNと呼ばれる新しいハイパーグラフベースのフレームワークを提案する。
rel-HNNは,分類タスクと回帰タスクの両方において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-16T18:20:45Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Arch-Graph: Acyclic Architecture Relation Predictor for
Task-Transferable Neural Architecture Search [96.31315520244605]
Arch-Graphはタスク固有の最適アーキテクチャを予測するトランスファー可能なNASメソッドである。
Arch-Graphの転送性と,多数のタスクにわたる高いサンプル効率を示す。
わずか50モデルの予算の下で、2つの検索スペースで平均して0.16%と0.29%のアーキテクチャを見つけることができる。
論文 参考訳(メタデータ) (2022-04-12T16:46:06Z) - Pretrained Cost Model for Distributed Constraint Optimization Problems [37.79733538931925]
分散制約最適化問題(DCOP)は、最適化問題の重要なサブクラスである。
本稿では,DCOPのための新しい非巡回グラフスキーマ表現を提案し,グラフ表現を組み込むためにグラフ注意ネットワーク(GAT)を利用する。
我々のモデルであるGAT-PCMは、幅広いDCOPアルゴリズムを向上するために、オフラインで最適なラベル付きデータで事前訓練される。
論文 参考訳(メタデータ) (2021-12-08T09:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。