論文の概要: Game-Theoretic Co-Evolution for LLM-Based Heuristic Discovery
- arxiv url: http://arxiv.org/abs/2601.22896v1
- Date: Fri, 30 Jan 2026 12:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.432349
- Title: Game-Theoretic Co-Evolution for LLM-Based Heuristic Discovery
- Title(参考訳): LLMに基づくヒューリスティック発見のためのゲーム理論共進化
- Authors: Xinyi Ke, Kai Li, Junliang Xing, Yifan Zhang, Jian Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、自動発見の急速な進歩を可能にした。
本稿では,発見を問題解決者とインスタンスジェネレータのプログラムレベルの共進化として再編成するゲーム理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.96481049421407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have enabled rapid progress in automatic heuristic discovery (AHD), yet most existing methods are predominantly limited by static evaluation against fixed instance distributions, leading to potential overfitting and poor generalization under distributional shifts. We propose Algorithm Space Response Oracles (ASRO), a game-theoretic framework that reframes heuristic discovery as a program level co-evolution between solver and instance generator. ASRO models their interaction as a two-player zero-sum game, maintains growing strategy pools on both sides, and iteratively expands them via LLM-based best-response oracles against mixed opponent meta-strategies, thereby replacing static evaluation with an adaptive, self-generated curriculum. Across multiple combinatorial optimization domains, ASRO consistently outperforms static-training AHD baselines built on the same program search mechanisms, achieving substantially improved generalization and robustness on diverse and out-of-distribution instances.
- Abstract(参考訳): 大規模言語モデル (LLMs) は自動ヒューリスティック発見 (AHD) の急速な進歩を実現しているが、既存の手法のほとんどは固定インスタンス分布に対する静的評価によって制限されており、分散シフトによる過度なオーバーフィッティングや一般化の欠如につながる。
我々は,アルゴリズム空間応答オラクル (ASRO) を提案する。これは,ヒューリスティックな発見を,解法とインスタンスジェネレータの共進化のプログラムレベルとして再設計するゲーム理論フレームワークである。
ASROは2つのプレイヤーゼロサムゲームとして相互作用をモデル化し、両サイドで戦略プールを成長させ、LLMベースの最適応答オーラクルを混合したメタストラテジーに対して反復的に拡張することで、静的評価を適応的で自己生成的なカリキュラムに置き換える。
複数の組合せ最適化領域をまたいだASROは、同じプログラム検索機構上に構築された静的学習型AHDベースラインを一貫して上回り、多様な分散インスタンスの一般化と堅牢性を大幅に向上させる。
関連論文リスト
- ARM: Role-Conditioned Neuron Transplantation for Training-Free Generalist LLM Agent Merging [51.409102048965394]
エージェント・ロール・マージング(ARM)は、LLMエージェントのモデルマージングのための活性化誘導されたロール条件のニューロン移植法である。
ARMは、静的自然言語タスクからマルチターンエージェントシナリオまで、既存のマージメソッドを改善している。
論文 参考訳(メタデータ) (2026-01-12T08:31:53Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Multiscale Aggregated Hierarchical Attention (MAHA): A Game Theoretic and Optimization Driven Approach to Efficient Contextual Modeling in Large Language Models [0.0]
マルチスケール集約階層的注意(MAHA)は、階層的分解と数学的に厳密な集約を通じて注意機構を再構築する新しいアーキテクチャフレームワークである。
MAHAは、入力シーケンスを学習可能なダウンサンプリング演算子を介して階層スケールに動的に分割する。
実験的なFLOP解析により,4096のシークエンス長で計算コストが81%削減されたことが確認された。
論文 参考訳(メタデータ) (2025-12-16T21:27:21Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - REvolution: An Evolutionary Framework for RTL Generation driven by Large Language Models [2.127921199213507]
LLM(Large Language Models)は、レジスター-トランスファーレベル(RTL)コード生成に使用される。
本稿では,進化計算(EC)とLLMを組み合わせて自動RTL生成と最適化を行うフレームワークであるRevolutionを紹介する。
論文 参考訳(メタデータ) (2025-10-24T12:50:35Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - A Local Information Aggregation based Multi-Agent Reinforcement Learning for Robot Swarm Dynamic Task Allocation [4.144893164317513]
分散化された部分観測可能なマルコフ決定プロセス(Dec_POMDP)を用いた新しいフレームワークを提案する。
我々の方法論の核心は、局所情報集約多元決定政策勾配(LIA_MADDPG)アルゴリズムである。
実験により,LIAモジュールは様々なCTDEベースのMARL法にシームレスに統合可能であることが示された。
論文 参考訳(メタデータ) (2024-11-29T07:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。