論文の概要: Implicit Search via Discrete Diffusion: A Study on Chess
- arxiv url: http://arxiv.org/abs/2502.19805v1
- Date: Thu, 27 Feb 2025 06:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:39.359463
- Title: Implicit Search via Discrete Diffusion: A Study on Chess
- Title(参考訳): 離散拡散による入射探索:チェスの研究
- Authors: Jiacheng Ye, Zhenyu Wu, Jiahui Gao, Zhiyong Wu, Xin Jiang, Zhenguo Li, Lingpeng Kong,
- Abstract要約: 本稿では,DiffuSearchを提案する。DiffuSearchは,離散拡散モデルを用いて未来を探索し,テキストをシンプルに検索するモデルである。
DiffuSearchをChessという古典的なボードゲームでインスタンス化する。
DiffuSearchは、検索不要と明示的な検索強化ポリシーの両方で優れていることを示す。
- 参考スコア(独自算出の注目度): 104.74301574891359
- License:
- Abstract: In the post-AlphaGo era, there has been a renewed interest in search techniques such as Monte Carlo Tree Search (MCTS), particularly in their application to Large Language Models (LLMs). This renewed attention is driven by the recognition that current next-token prediction models often lack the ability for long-term planning. Is it possible to instill search-like abilities within the models to enhance their planning abilities without relying on explicit search? We propose DiffuSearch , a model that does \textit{implicit search} by looking into the future world via discrete diffusion modeling. We instantiate DiffuSearch on a classical board game, Chess, where explicit search is known to be essential. Through extensive controlled experiments, we show DiffuSearch outperforms both the searchless and explicit search-enhanced policies. Specifically, DiffuSearch outperforms the one-step policy by 19.2% and the MCTS-enhanced policy by 14% on action accuracy. Furthermore, DiffuSearch demonstrates a notable 30% enhancement in puzzle-solving abilities compared to explicit search-based policies, along with a significant 540 Elo increase in game-playing strength assessment. These results indicate that implicit search via discrete diffusion is a viable alternative to explicit search over a one-step policy. All codes are publicly available at \href{https://github.com/HKUNLP/DiffuSearch}{https://github.com/HKUNLP/DiffuSearch}.
- Abstract(参考訳): AlphaGo時代以降、モンテカルロ木探索 (MCTS) のような探索技術、特にLarge Language Models (LLM) への応用に新たな関心が寄せられている。
この新たな注目は、現在の次世代の予測モデルには長期的な計画能力がない、という認識によって引き起こされる。
明確な探索に頼ることなく、モデル内の検索ライクな能力を取り入れて計画能力を高めることは可能か?
本稿では,DiffuSearchを提案する。DiffuSearchは,離散拡散モデルを用いて未来を探索するモデルである。
DiffuSearchをChessという古典的なボードゲームでインスタンス化する。
広範に制御された実験を通して、DiffuSearchは検索なしと明示的な検索強化ポリシーの両方で優れていることを示す。
具体的には、DiffuSearchはワンステップポリシーを19.2%上回り、MCTSが強化したポリシーを14%上回っている。
さらに、DiffuSearchは、明示的な検索ベースのポリシーに比べてパズル解決能力の顕著な30%向上と、ゲームプレイの強度評価の顕著な540エロ向上を示している。
これらの結果は、離散拡散による暗黙的な探索が、一段階のポリシーに対する明示的な探索の代替となることを示唆している。
すべてのコードは \href{https://github.com/HKUNLP/DiffuSearch}{https://github.com/HKUNLP/DiffuSearch} で公開されている。
関連論文リスト
- Planning In Natural Language Improves LLM Search For Code Generation [5.370466208990696]
自然言語における問題解決のための新しい探索アルゴリズムであるPlanSearchを提案する。
PlanSearchはHumanEval+、MBPP+、LiveCodeBenchで強力な結果を示している。
すべてのモデル、検索アルゴリズム、および分析されたベンチマークにおいて、検索によるパフォーマンス向上を正確に予測できることが示される。
論文 参考訳(メタデータ) (2024-09-05T17:44:49Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Stream of Search (SoS): Learning to Search in Language [29.841835308845948]
本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。
本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。
この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-01T06:50:52Z) - Hybrid Search for Efficient Planning with Completeness Guarantees [63.02803974708516]
本稿では,離散的な行動空間における完全性を実現するために,部分ゴール探索法を効果的に拡張する手法を提案する。
このソリューションは、高レベルの探索の実践的効率と低レベルの探索の完全性という、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-10-19T15:16:43Z) - RetroGraph: Retrosynthetic Planning with Graph Search [101.92603715499112]
再合成計画(Retrosynthetic Planning)は、標的分子を合成する反応経路を見つけることを目的としている。
本稿では,任意の中間分子の冗長な探索を排除したグラフベースの探索ポリシーを提案する。
提案手法は,グラフ内のターゲットの集合を探索し,木構造に基づく探索手法におけるターゲット間重複を除去する。
論文 参考訳(メタデータ) (2022-06-23T05:01:29Z) - Deep Reinforcement Agent for Efficient Instant Search [14.086339486783018]
本稿では,関連する文書を検索する上で,意味的により健全なトークンを識別することで,負荷問題に対処することを提案する。
我々は、検索エンジンと直接対話し、単語の重要性を予測する強化エージェントを訓練する。
トリガーサーチ数とシステム性能のトレードオフを研究するために,新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-17T22:47:15Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Scalable Online Planning via Reinforcement Learning Fine-Tuning [25.27878823988181]
タブラル探索法は,探索空間のサイズに匹敵しない。
我々はこれを、強化学習によるポリシーニューラルネットワークのオンラインモデルに基づく微調整に置き換える。
特に,検索アルゴリズムを用いて,ハナビを自己再生する手法を提案する。
論文 参考訳(メタデータ) (2021-09-30T17:59:11Z) - Neural Extractive Search [53.15076679818303]
ドメインの専門家は、しばしば大きなコーパスから構造化された情報を抽出する必要がある。
我々は「抽出探索」と呼ばれる探索パラダイムを提唱し、探索クエリをキャプチャスロットで強化する。
ニューラル検索とアライメントを用いてリコールをどのように改善できるかを示す。
論文 参考訳(メタデータ) (2021-06-08T18:03:31Z) - Searching for a Search Method: Benchmarking Search Algorithms for
Generating NLP Adversarial Examples [10.993342896547691]
自然言語処理(NLP)タスクの逆例を生成するために,複数のブラックボックス探索アルゴリズムの動作について検討した。
検索アルゴリズム,検索空間,検索予算の3つの要素を詳細に分析する。
論文 参考訳(メタデータ) (2020-09-09T17:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。