Fugu-MT 論文翻訳(概要): CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design

論文の概要: CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design

arxiv url: http://arxiv.org/abs/2505.12285v1
Date: Sun, 18 May 2025 07:48:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.143421
Title: CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design
Title（参考訳）: CALM: 自動ヒューリスティック設計のためのアルゴリズムと言語モデルの共同進化
Authors: Ziyao Huang, Weiwei Wu, Kui Wu, Jianping Wang, Wei-Bin Lee,
Abstract要約: 大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
参考スコア（独自算出の注目度）: 11.639825726501659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tackling complex optimization problems often relies on expert-designed heuristics, typically crafted through extensive trial and error. Recent advances demonstrate that large language models (LLMs), when integrated into well-designed evolutionary search frameworks, can autonomously discover high-performing heuristics at a fraction of the traditional cost. However, existing approaches predominantly rely on verbal guidance, i.e., manipulating the prompt generation process, to steer the evolution of heuristics, without adapting the underlying LLM. We propose a hybrid framework that combines verbal and numerical guidance, the latter achieved by fine-tuning the LLM via reinforcement learning based on the quality of generated heuristics. This joint optimization allows the LLM to co-evolve with the search process. Our method outperforms state-of-the-art (SOTA) baselines across various optimization tasks, running locally on a single 24GB GPU using a 7B model with INT4 quantization. It surpasses methods that rely solely on verbal guidance, even when those use significantly more powerful API-based models.
Abstract（参考訳）: 複雑な最適化問題に取り組むには、専門家が設計したヒューリスティックに頼ることが多い。近年の進歩は、よく設計された進化的検索フレームワークに統合された大規模言語モデル(LLM)が、従来のコストのごく一部で、自律的にハイパフォーマンスなヒューリスティックを発見できることを実証している。しかし、既存のアプローチは主に言語指導(即時生成プロセスを操作すること)に依存しており、基礎となるLLMに適応することなくヒューリスティックスの進化を制御している。本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。後者は,生成したヒューリスティックスの品質に基づいた強化学習を通じてLLMを微調整することで実現した。この共同最適化により、LLMは探索プロセスと共進化できる。提案手法は, INT4量子化を用いた7Bモデルを用いて, 単一24GBのGPU上でローカルに動作する, 様々な最適化タスクにおいて, 最先端のSOTA(State-of-the-art)ベースラインよりも優れる。はるかに強力なAPIベースのモデルを使っている場合でも、言葉によるガイダンスにのみ依存するメソッドを超越します。

関連論文リスト

Pareto-Grid-Guided Large Language Models for Fast and High-Quality Heuristics Design in Multi-Objective Combinatorial Optimization [3.952819864255911]
多目的最適化問題(MOCOP)は、矛盾する目的の同時最適化を必要とする実用的応用においてしばしば発生する。 LLM(MPaGE)のPareto-Grid-Guided EvolutionによるMOCOPのマルチヒューリスティックスについて紹介する。 MPaGE は LLM を用いて、変異の間、意味的に異なる論理構造を優先順位付けし、多様性を促進し、集団内の冗長性を緩和する。
論文参考訳（メタデータ） (2025-07-28T15:26:43Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective [65.12150411762273]
ランダムなデモを不整合な "gibberish" にプルーニングすることで,多様なタスクにおけるパフォーマンスが著しく向上することを示す。本稿では,低データレジームのみを用いてプルーニング戦略を自動的に検索する自己発見プロンプト最適化フレームワークPromptQuineを提案する。
論文参考訳（メタデータ） (2025-06-22T07:53:07Z)
Large Language Models for Design Structure Matrix Optimization [4.513609458468522]
複雑なエンジニアリングシステムでは、設計構造行列(DSM)を用いてコンポーネントや開発活動間の相互依存性をモデル化し分析することが多い。フィードバックループを最小限に抑え、モジュール性やプロセス効率を向上させるためにDSM内の要素を再編成することは、エンジニアリング設計と運用において困難な最適化問題となっている。本研究では, 大規模言語モデル (LLM) が, 高度な推論や文脈理解にその能力を活用することで, そうしたCO問題の解決を支援する可能性について検討する。
論文参考訳（メタデータ） (2025-06-11T13:53:35Z)
Generalizable Heuristic Generation Through Large Language Models with Meta-Optimization [14.919482411153185]
大規模言語モデル (LLM) を用いたヒューリスティック設計が最適化問題に対処するための有望なアプローチとして登場した。既存のアプローチは、しばしば手動で定義された進化的一般化とシングルタスクのトレーニングスキームに依存している。本稿では,メタ学習のレベルで機能する新しいフレームワークであるMeta-Optimization of Heuristics(MoH)を提案する。
論文参考訳（メタデータ） (2025-05-27T08:26:27Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
GAAPO: Genetic Algorithmic Applied to Prompt Optimization [0.0]
大規模言語モデル(LLM)は様々なタスクにまたがって顕著な能力を示しており、その性能は入力プロンプトの品質に大きく依存している。迅速なエンジニアリングは有効であると証明されているが、通常は手動による調整に依存しており、時間を要するため、潜在的に最適ではない。本稿では,代々のプロンプトを進化させるために遺伝的原理を活用するハイブリッド最適化フレームワークであるPrompt Optimizationに応用したジェネティックアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-09T11:19:42Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
From Understanding to Excelling: Template-Free Algorithm Design through Structural-Functional Co-Evolution [39.42526347710991]
大規模言語モデル(LLM)はアルゴリズム生成と最適化の自動化を大幅に加速した。 LLMに基づくエンドツーエンドのアルゴリズム生成と最適化フレームワークを提案する。我々のアプローチは、LLMの深い意味理解を利用して、自然言語の要求や人間による論文をコードソリューションに変換する。
論文参考訳（メタデータ） (2025-03-13T08:26:18Z)
Leveraging Large Language Models to Develop Heuristics for Emerging Optimization Problems [0.0]
組合せ最適化問題は、しばしば効率的な解を生成するアルゴリズムに依存する。人工知能の最近の進歩は、進化の枠組みを通じて生成を自動化する可能性を実証している。本研究では,問題固有の記述を組み込んだコンテキスト進化型ヒューリスティックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-05T10:22:49Z)
Can Large Language Models Be Trusted as Evolutionary Optimizers for Network-Structured Combinatorial Problems? [8.082897040940447]
大規模言語モデル(LLM)は、言語理解とさまざまなドメイン間の推論において強力な能力を示している。本研究では,問題構造に係わるLLMの能力を評価するための体系的枠組みを提案する。我々は、よく使われる進化的手法(EVO)を採用し、LLM演算子の出力忠実度を厳格に評価する包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T05:19:19Z)
Deep Insights into Automated Optimization with Large Language Models and Evolutionary Algorithms [3.833708891059351]
大きな言語モデル(LLM)と進化的アルゴリズム(EA)は、制限を克服し、最適化をより自動化するための有望な新しいアプローチを提供する。 LLMは最適化戦略の生成、洗練、解釈が可能な動的エージェントとして機能する。 EAは進化作用素を通して、複雑な解空間を効率的に探索する。
論文参考訳（メタデータ） (2024-10-28T09:04:49Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Enhancing Model Performance: Another Approach to Vision-Language Instruction Tuning [0.0]
大規模言語モデル(LLM)と視覚言語(VL)タスクの統合は、人工知能の領域における変革的な発展である。本稿では,これらの複雑なモデルのマルチモーダル関数の強化に特化して,Bottleneck Adapterと呼ばれる新しいアプローチを提案する。当社のアプローチでは,大規模で複雑なニューラルネットワークを必要とせず,軽量なアダプタを用いてイメージエンコーダとLCMを接続する。
論文参考訳（メタデータ） (2024-07-25T06:59:15Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文参考訳（メタデータ） (2024-02-06T11:44:06Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers [67.64162164254809]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文参考訳（メタデータ） (2023-09-15T16:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。