論文の概要: WIST: Web-Grounded Iterative Self-Play Tree for Domain-Targeted Reasoning Improvement
- arxiv url: http://arxiv.org/abs/2603.22352v1
- Date: Sun, 22 Mar 2026 09:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.090132
- Title: WIST: Web-Grounded Iterative Self-Play Tree for Domain-Targeted Reasoning Improvement
- Title(参考訳): WIST: ドメインターゲット推論改善のためのWebGrounded Iterative Self-Play Tree
- Authors: Fangyuan Li, Pengfei Li, Shijie Wang, Junqi Gao, Jianxing Liu, Biqing Qi, Yuqiang Li,
- Abstract要約: textbfWeb-grounded textbfIterative textbfSelf-play textbfTree framework for domain-targeted reasoning improvement。
オープンWebから直接学習するドメインターゲット推論改善のためのフレームワークである textbfWIST を提示する。
- 参考スコア(独自算出の注目度): 31.602170338376638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in reinforcement learning with verifiable rewards (RLVR) offers a practical path to self-improvement of language models, but existing methods face a key trade-off: endogenous self-play can drift over iterations, while corpus-grounded approaches rely on curated data environments. We present \textbf{WIST}, a \textbf{W}eb-grounded \textbf{I}terative \textbf{S}elf-play \textbf{T}ree framework for domain-targeted reasoning improvement that learns directly from the open web without requiring any pre-arranged domain corpus. WIST incrementally expands a domain tree for exploration, and retrieves and cleans path-consistent web corpus to construct a controllable training environment. It then performs Challenger--Solver self-play with verifiable rewards, and feeds learnability signals back to update node posteriors and guide subsequent exploration through an adaptive curriculum. Across four backbones, WIST consistently improves over the base models and typically outperforms both purely endogenous self-evolution and corpus-grounded self-play baselines, with the Overall gains reaching \textbf{+9.8} (\textit{Qwen3-4B-Base}) and \textbf{+9.7} (\textit{OctoThinker-8B}). WIST is also domain-steerable, improving \textit{Qwen3-8B-Base} by \textbf{+14.79} in medicine and \textit{Qwen3-4B-Base} by \textbf{+5.28} on PhyBench. Ablations further confirm the importance of WIST's key components for stable open-web learning. Our Code is available at https://github.com/lfy-123/WIST.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)の最近の進歩は、言語モデルの自己改善への実践的なパスを提供するが、既存の手法は重要なトレードオフに直面している。
本稿では、オープンWebから直接学習するドメインターゲット推論改善のためのフレームワークとして、a \textbf{W}eb-grounded \textbf{I}terative \textbf{S}elf-play \textbf{T}reeを提案する。
WISTは、探索用のドメインツリーを漸進的に拡張し、パス一貫性のあるWebコーパスを検索してクリーン化し、制御可能なトレーニング環境を構築する。
次に、検証可能な報酬でチャレンジャー・ソルバーの自己プレイを実行し、学習可能性信号をフィードバックしてノードの後方を更新し、適応的なカリキュラムを通じてその後の探索をガイドする。
4つのバックボーンで、WISTはベースモデルよりも一貫して改善され、通常、純粋に内在的自己進化とコーパス的自己プレーベースラインの両方を上回り、合計ゲインは \textbf{+9.8} (\textit{Qwen3-4B-Base}) と \textbf{+9.7} (\textit{OctoThinker-8B}) に達する。
WISTはドメイン・ステアリングも可能で、医学では \textbf{+14.79} で \textit{Qwen3-8B-Base} を、PhyBenchでは \textbf{+5.28} で \textit{Qwen3-4B-Base} を改良している。
アブレーションにより、安定的なオープンWeb学習におけるWISTの重要コンポーネントの重要性がさらに裏付けられる。
私たちのコードはhttps://github.com/lfy-123/WISTで利用可能です。
関連論文リスト
- Relational In-Context Learning via Synthetic Pre-training with Structural Prior [60.404256960057545]
RDB-PFNは、$textbfsynthetic$で純粋にトレーニングされた最初のリレーショナルファンデーションモデルである。
構造因果モデル(Structure Causal Models, SCM)から生成された合成データが単一のテーブル上の推論を可能にするPFN(Presideed-Data Fitted Networks)にインスパイアされた。
RDB-PFNは、19の現実世界の予測タスクにおいて、強い数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-04T07:30:54Z) - Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning [43.698788115019376]
textbfDRIFT (textbfDis-textbfRefined textbfFerence textbfTraining) を導入する。
実世界のテキストでトレーニングされたDRIFTモデルWildFeedbackデータセットはWildBench Task Score上で最大+6.23% (7B) / +7.61% (14B)、最大+8.95% (7B) / +を達成している。
論文 参考訳(メタデータ) (2025-09-27T03:06:27Z) - RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation [78.01030342481246]
RecBaseは、レコメンデーション指向の目的によって事前訓練されたドメインに依存しない基礎モデルである。
アイテムを階層的な概念識別子にエンコードする統一されたアイテムトークンを導入します。
我々のモデルは、ゼロショットおよびクロスドメインレコメンデーションタスクにおいて、LLMのベースラインの最大7Bパラメータのパフォーマンスを一致または超過します。
論文 参考訳(メタデータ) (2025-09-03T08:33:43Z) - Efficient Graph Optimization via Distance-Aware Graph Representation Learning [5.216774377033164]
距離対応マルチホップメッセージパッシングと動的トポロジ改善を統合したグラフ最適化フレームワークである textbfDRTR を提案する。
DRTRは静的前処理と動的再サンプリングの両方を活用して、より深い構造的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-25T05:12:51Z) - Domain Decorrelation with Potential Energy Ranking [40.43902519672898]
textbfPotential textbfEnergy textbfRanking (PoER)を提案する。
PoERは、浅い層にドメイン情報を含むラベル関連機能をニューラルネットワークがキャプチャするのに役立つ。
ドメインベンチマークのパフォーマンスが向上し、既存の手法に比べて平均トップ1の精度が1.20%向上したと報告している。
論文 参考訳(メタデータ) (2022-07-25T13:33:53Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Structure-Grounded Pretraining for Text-to-SQL [75.19554243393814]
本稿では,テキストからLARGEへの構造化事前学習フレームワーク(G)について述べる。
カラムグラウンド、バリューグラウンド、カラム値マッピングといった新しい予測タスクのセットを特定し、それらをテキストテーブルエンコーダの事前訓練に活用する。
論文 参考訳(メタデータ) (2020-10-24T04:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。