Fugu-MT 論文翻訳(概要): Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis

論文の概要: Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis

arxiv url: http://arxiv.org/abs/2605.17539v2
Date: Tue, 19 May 2026 03:52:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:08.553418
Title: Memory-Guided Tree Search with Cross-Branch Knowledge Transfer for LLM Solver Synthesis
Title（参考訳）: LLMソルバー合成のためのクロスブランチ知識伝達を用いたメモリガイド木探索
Authors: Fatemeh Haji, Javier Delarosa Quiros, Peyman Najafirad,
Abstract要約: メモリ誘導型ツリー検索フレームワークであるMEMOIRを2レベルメモリ階層で導入する。組合せ最適化の7つの問題の中で、MEMOIRは96.7%の解の有効性を達成している。 MeMOIRのラン・トゥ・ランの妥当性標準偏差は、評価したベースライン毎の1桁以下である。
参考スコア（独自算出の注目度）: 3.0663322946413287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Combinatorial optimization (CO) underlies decision-making from logistics to chip design, where infeasible solutions are operationally unusable and small quality gains translate into substantial economic value. Recent work uses large language models (LLMs) to automate solver synthesis: generating executable solver programs from natural-language specifications. However, existing tree-search and evolutionary agents refine candidate trajectories in parallel without explicit knowledge transfer, reintroducing the same constraint violations and converging on similar algorithm families. We introduce MEMOIR, a memory-guided tree-search framework with a two-level memory hierarchy: branch-local memory preserves execution-grounded refinement details within a branch as it iterates on a single algorithmic design, while global memory stores compressed algorithmic and failure-mode summaries across branches. A reflection step at branch termination distills these summaries, enabling cross-branch transfer without polluting future contexts with low-level debugging traces. Across seven CO problems spanning scheduling, routing, packing, and geometric design, MEMOIR achieves 96.7% solution validity (a 9.2 point gap over the strongest baseline) and improves the average normalized score by 7.3 points at matched per-method execution budget. Over three independent runs on four problems, MEMOIR's run-to-run validity standard deviation is more than an order of magnitude below that of every baseline we evaluated in this setting, suggesting that memory-guided exploration yields consistent improvements rather than reflecting sampling variance.
Abstract（参考訳）: 組合せ最適化(CO)は、ロジスティクスからチップ設計への意思決定の基盤であり、実現不可能なソリューションは運用上は使用不能であり、小さな品質向上は実質的な経済的価値へと変換される。最近の研究は、Lumge Language Model (LLM) を使用して、自然言語仕様から実行可能なソルバプログラムを生成するソルバ合成を自動化する。しかし、既存の木探索および進化的エージェントは、明示的な知識伝達なしに、候補軌道を並列に洗練し、同じ制約違反を再導入し、類似のアルゴリズムファミリーに収束させる。分岐ローカルメモリは、単一のアルゴリズム設計を反復的に繰り返して、実行済みの洗練された詳細をブランチ内に保存する一方、グローバルメモリは、各ブランチに圧縮されたアルゴリズムおよび失敗モードの要約を格納する。ブランチ終了時のリフレクションステップは、これらの要約を蒸留し、低レベルのデバッグトレースで将来のコンテキストを汚染することなく、クロスブランチ転送を可能にする。スケジューリング、ルーティング、パッキング、幾何設計にまたがる7つのCO問題の中で、MEMOIRは96.7%の解の妥当性(最強のベースラインに9.2ポイントの差がある)を達成し、平均正規化スコアを平均7.3ポイント改善する。 3つ以上の独立した4つの問題において, MEMOIR のラン・トゥ・ランの妥当性標準偏差は, サンプリング分散を反映するのではなく, メモリ誘導探索が一貫した改善をもたらすことを示唆した。

関連論文リスト

HMACE: Heterogeneous Multi-Agent Collaborative Evolution for Combinatorial Optimization [19.90781293176099]
HMACEは異種多言語協調進化フレームワークである。それぞれの進化生成を4つの調整されたエージェントで自律的で役割特異的なループに分解する。冗長な評価を避けながら、多様で有望な行動への探索を導く。
論文参考訳（メタデータ） (2026-05-08T04:02:28Z)
Efficient Test-Time Inference via Deterministic Exploration of Truncated Decoding Trees [68.04613115686509]
自己整合性は、複数の推論トレースを並列にサンプリングし、投票することで、推論時間のパフォーマンスを向上させる。そこで本研究では,切り落された標本を伐採木として扱う決定論的復号法であるDLE(Distinct Leafion)を提案する。 DLEは高品質な推論トレースを調査し、数学、コーディング、一般的な推論タスクのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2026-04-22T12:42:03Z)
Rethinking Retrieval-Augmentation as Synthesis: A Query-Aware Context Merging Approach [8.202508647749125]
Retrieval-Augmented Generation (RAG)により、LLM(Large Language Models)は、外部情報を動的に組み込んで既存の知識を拡張することができる。標準的なパイプラインは、検索-then-select戦略を通じてこの問題に対処し、通常は関連性に基づいてトップkチャンクのみを保持する。本稿では,静的フィルタリングからクエリ認識合成へパラダイムをシフトさせる新しいフレームワークであるMergeRAGを提案する。
論文参考訳（メタデータ） (2026-03-18T09:09:52Z)
Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。本稿では,再構築による理解という,新しいパラダイムを提案する。マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-11T09:23:20Z)
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
DRAGON: LLM-Driven Decomposition and Reconstruction Agents for Large-Scale Combinatorial Optimization [40.88623618289683]
大規模言語モデル(LLM)は、最近、プロンプトベースの戦略を通じて最適化問題(COP)に取り組むことを約束している。メタヒューリスティック設計とLLM推論の長所を組み合わせたDRAGONを提案する。最適化環境と継続的に対話し、適応的なエクスペリエンスメモリを活用することで、エージェントはフィードバックから反復的に学習する。
論文参考訳（メタデータ） (2026-01-10T09:31:40Z)
MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文参考訳（メタデータ） (2025-11-04T18:27:39Z)
Once Upon an Input: Reasoning via Per-Instance Program Synthesis [19.86168542588911]
PIPS(Per-Instance Program Synthesis)は、構造的フィードバックを用いて、インスタンスレベルでプログラムを生成し、洗練する手法である。パフォーマンスをさらに向上するため、PIPSは直接推論とプログラム合成を動的に選択する信頼度基準をインスタンス毎に組み込んでいる。
論文参考訳（メタデータ） (2025-10-26T21:58:33Z)
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文参考訳（メタデータ） (2025-04-28T01:46:35Z)
Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。我々は現在最先端のRL分岐アルゴリズムを3～5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文参考訳（メタデータ） (2022-05-28T06:08:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。