論文の概要: PAIR: A Novel Large Language Model-Guided Selection Strategy for Evolutionary Algorithms
- arxiv url: http://arxiv.org/abs/2503.03239v1
- Date: Wed, 05 Mar 2025 07:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:50.681767
- Title: PAIR: A Novel Large Language Model-Guided Selection Strategy for Evolutionary Algorithms
- Title(参考訳): PAIR: 進化的アルゴリズムのための新しい大規模言語モデルガイド選択戦略
- Authors: Shady Ali, Mahmoud Ashraf, Seif Hegazy, Fatty Salem, Hoda Mokhtar, Mohamed Medhat Gaber, Mohamed Taher Alrefaie,
- Abstract要約: 本稿では、PAIR(Preference-Aligned individual Reciprocity)を紹介する。
PAIRは人間に似た配偶者選択をエミュレートし、進化的アルゴリズム(EA)におけるペアリングプロセスにインテリジェンスを導入する
- 参考スコア(独自算出の注目度): 2.3244035825657963
- License:
- Abstract: Evolutionary Algorithms (EAs) employ random or simplistic selection methods, limiting their exploration of solution spaces and convergence to optimal solutions. The randomness in performing crossover or mutations may limit the model's ability to evolve efficiently. This paper introduces Preference-Aligned Individual Reciprocity (PAIR), a novel selection approach leveraging Large Language Models to emulate human-like mate selection, thereby introducing intelligence to the pairing process in EAs. PAIR prompts an LLM to evaluate individuals within a population based on genetic diversity, fitness level, and crossover compatibility, guiding more informed pairing decisions. We evaluated PAIR against a baseline method called LLM-driven EA (LMEA), published recently. Results indicate that PAIR significantly outperforms LMEA across various TSP instances, achieving lower optimality gaps and improved convergence. This performance is especially noticeable when combined with the flash thinking model, demonstrating increased population diversity to escape local optima. In general, PAIR provides a new strategy in the area of in-context learning for LLM-driven selection in EAs via sophisticated preference modelling, paving the way for improved solutions and further studies into LLM-guided optimization.
- Abstract(参考訳): 進化的アルゴリズム(EA)はランダムまたは単純選択法を採用し、解空間の探索と最適解への収束を制限する。
交叉や突然変異を行う際のランダム性は、モデルが効率的に進化する能力を制限する可能性がある。
そこで本稿では,大規模言語モデルを用いた新たな選択手法であるPreference-Aligned Individual Reciprocity(PAIR)を紹介し,EAにおけるペアリングプロセスにインテリジェンスを導入する。
PAIRは、遺伝的多様性、フィットネスレベル、クロスオーバー互換性に基づいて、LLMに集団内の個人を評価するよう促す。
PAIR を LLM-driven EA (LMEA) と呼ばれるベースライン法と比較した。
その結果, PAIR は様々な TSP インスタンスで LMEA を著しく上回り, 最適性ギャップが低く, 収束性も向上した。
この性能はフラッシュシンキングモデルと組み合わせることで特に顕著であり、地域最適から逃れるために人口の多様性が増大している。
一般に、PAIRは、洗練された選好モデリング、改善されたソリューションの道を切り拓き、LLM誘導最適化のさらなる研究を通じて、EAにおけるLLM駆動選択のためのコンテキスト内学習の領域において、新しい戦略を提供する。
関連論文リスト
- Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z) - An LLM-Empowered Adaptive Evolutionary Algorithm For Multi-Component Deep Learning Systems [17.78934802009711]
多目的進化アルゴリズム(MOEA)は、複雑な多成分アプリケーションにおいて最適な解を求めるために広く用いられている。
本稿では,MCDLシステムにおける安全性違反を検出する適応的進化探索アルゴリズムである$mu$MOEAを提案する。
実験の結果,$mu$MOEAは進化探索の効率と多様性を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-01-01T13:19:58Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Large Language Models as Evolutionary Optimizers [37.92671242584431]
本稿では,大言語モデル(LLM)を進化論として初めて研究する。
主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。
また,進化探索における自己適応機構の有効性についても検討した。
論文 参考訳(メタデータ) (2023-10-29T15:44:52Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。