論文の概要: MiGrATe: Mixed-Policy GRPO for Adaptation at Test-Time
- arxiv url: http://arxiv.org/abs/2508.08641v1
- Date: Tue, 12 Aug 2025 05:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.305835
- Title: MiGrATe: Mixed-Policy GRPO for Adaptation at Test-Time
- Title(参考訳): MiGrATe: テスト時間での適応のための混合ポリティクスGRPO
- Authors: Peter Phan, Dhruv Agarwal, Kavitha Srinivas, Horst Samulowitz, Pavan Kapanipathi, Andrew McCallum,
- Abstract要約: MiGrATeは、外部のトレーニングデータを必要とせずに、推論時に大きな言語モデルを適応する検索アルゴリズムである。
我々はMiGrATeを3つの挑戦的ドメイン単語探索、分子最適化、仮説+プログラム誘導で評価した。
- 参考スコア(独自算出の注目度): 45.001220323583574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being applied to black-box optimization tasks, from program synthesis to molecule design. Prior work typically leverages in-context learning to iteratively guide the model towards better solutions. Such methods, however, often struggle to balance exploration of new solution spaces with exploitation of high-reward ones. Recently, test-time training (TTT) with synthetic data has shown promise in improving solution quality. However, the need for hand-crafted training data tailored to each task limits feasibility and scalability across domains. To address this problem, we introduce MiGrATe-a method for online TTT that uses GRPO as a search algorithm to adapt LLMs at inference without requiring external training data. MiGrATe operates via a mixed-policy group construction procedure that combines on-policy sampling with two off-policy data selection techniques: greedy sampling, which selects top-performing past completions, and neighborhood sampling (NS), which generates completions structurally similar to high-reward ones. Together, these components bias the policy gradient towards exploitation of promising regions in solution space, while preserving exploration through on-policy sampling. We evaluate MiGrATe on three challenging domains-word search, molecule optimization, and hypothesis+program induction on the Abstraction and Reasoning Corpus (ARC)-and find that it consistently outperforms both inference-only and TTT baselines, demonstrating the potential of online TTT as a solution for complex search tasks without external supervision.
- Abstract(参考訳): プログラム合成から分子設計に至るまで、大規模言語モデル(LLM)はブラックボックス最適化タスクにますます応用されている。
従来の作業は通常、コンテキスト内学習を活用して、よりよいソリューションに向けてモデルを反復的にガイドします。
しかし、そのような方法はしばしば、新しい解空間の探索と高次解空間の活用のバランスをとるのに苦労する。
近年, 合成データを用いたテストタイムトレーニング (TTT) により, ソリューションの品質向上が期待されている。
しかし、各タスクに適した手作りのトレーニングデータの必要性は、ドメイン間の実現可能性とスケーラビリティを制限する。
この問題に対処するために,GRPOを検索アルゴリズムとして用いるオンラインTTTのMiGrATeを導入する。
MiGrATeは、オンラインサンプリングと2つの非政治データ選択技術を組み合わせた混合政治グループ構築手順によって運営されている。
これらとともに、これらのコンポーネントは、オンラインサンプリングによる探索を保ちながら、ソリューション空間における有望な領域の活用に向けたポリシーの勾配をバイアスする。
MiGrATeは3つの挑戦的ドメインワード探索、分子最適化、仮説+プログラム誘導をARC(Abstraction and Reasoning Corpus)上で評価し、推論のみのベースラインとTTTベースラインの両方を一貫して上回り、外部監督なしで複雑な検索タスクのソリューションとしてオンラインTTTの可能性を示す。
関連論文リスト
- Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。