論文の概要: Self-Improving Language Models with Bidirectional Evolutionary Search
- arxiv url: http://arxiv.org/abs/2605.28814v1
- Date: Wed, 27 May 2026 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.269382
- Title: Self-Improving Language Models with Bidirectional Evolutionary Search
- Title(参考訳): 双方向進化探索を用いた自己改善型言語モデル
- Authors: Guowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du,
- Abstract要約: Bidirectional Evolutionary Search (BES)は、前方の候補の進化と後方の目標の分解を結合する検索フレームワークである。
展開のみ探索によって生成される候補は狭いエントロピーシェルに制限され、進化的演算子はそれを回避できることを示す理論的動機を与える。
実験によると、メインストリームのポストトレーニングアルゴリズムが改善に失敗するポストトレーニングタスクにおいて、BESは一貫性のあるゲインを実現している。
- 参考スコア(独自算出の注目度): 93.21736992722835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search has been proposed as an effective method for self-improving language models and agentic systems, both for post-training sample generation and for inference. However, widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass. To address these, we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition. In the forward search, BES augments standard expansion with evolution operators that recombine partial trajectories to generate candidates that are difficult to obtain from a single model rollout. In the backward search, BES recursively decomposes the original task into checkable subgoals, producing dense intermediate feedback that guides forward search. We provide theoretical motivation showing that candidates generated by expansion-only search are confined to a narrow entropy shell while evolutionary operators can escape it, and that backward search can exponentially reduce the number of required samples to find a correct answer. Experiments show that on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance. Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES.
- Abstract(参考訳): 検索は,学習後のサンプル生成と推論の両方において,自己改善言語モデルとエージェントシステムに有効な方法として提案されている。
しかし、最良Nサンプリングや木探索のような広く使われている手法は、2つの基本的な制限に直面している。これらはスパース検証信号によって誘導され、主に自己回帰拡張によって候補を構築し、かなりのモデル確率質量を持つ領域への探索を制限する。
これらの問題に対処するため,提案するBES(Bidirectional Evolutionary Search)は,先行候補の進化と後方目標の分解を結合した検索フレームワークである。
前方探索では、BESは1つのモデルロールアウトから入手し難い候補を生成するために部分軌道を再結合する進化演算子との標準展開を強化する。
後方探索では、BESは元のタスクをチェック可能なサブゴールに再帰的に分解し、前方探索を誘導する高密度な中間フィードバックを生成する。
本稿では,拡張専用探索によって生成される候補が狭いエントロピーシェルに制限されている一方で,進化的演算子によって回避できることを示す理論的動機と,適切な解を求めるために必要なサンプルの数を指数関数的に削減できることを示す。
実験によると、メインストリームのポストトレーニングアルゴリズムが改善に失敗するポストトレーニングタスクにおいて、BESは一貫性のあるゲインを実現し、推論時に3つのオープンな問題解決ベンチマークでは、BESが既存のオープンソースフレームワークを平均と最高の両方のパフォーマンスで上回っている。
コードとトレーニングされたモデルはhttps://github.com/Embodied-Minds-Lab/BESで入手できる。
関連論文リスト
- Integrating Chain-of-Thought into Generative Retrieval: A Preliminary Study [31.167867050243256]
ThinkGRは、チェーン・オブ・シークレットとドシド生成をインターリーブする統合フレームワークであり、単一の生成プロセス内で反復的な思考と検索を可能にする。
4つのマルチホップ検索ベンチマークの実験では、ThinkGRは最先端のパフォーマンスを平均で+6.86%向上した。
論文 参考訳(メタデータ) (2026-05-21T11:48:35Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation [44.93777271276723]
擬似クエリドキュメントペアを作成することにより,アノテーションフリーでスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
転送クエリ生成方法は、要約などの他のNLPタスクのために訓練された生成モデルを使用して、擬似クエリを生成する。
論文 参考訳(メタデータ) (2022-12-17T10:43:25Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。