論文の概要: RoCo: Role-Based LLMs Collaboration for Automatic Heuristic Design
- arxiv url: http://arxiv.org/abs/2512.03762v1
- Date: Wed, 03 Dec 2025 13:09:34 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:31.525915
- Title: RoCo: Role-Based LLMs Collaboration for Automatic Heuristic Design
- Title(参考訳): RoCo: 自動ヒューリスティック設計のためのロールベースLLMコラボレーション
- Authors: Jiawei Xu, Fengfeng Wei, Weineng Chen,
- Abstract要約: 本稿では、自動ヒューリスティックデザイン(AHD)の多様性と品質を高めるために、新しいマルチエージェントロールベースシステムであるRoCoを提案する。
RoCoは4つの特殊なLLM誘導エージェント、エクスプローラー、批評家、インテグレータを協調して高品質なインテグレータを生成する。
実験結果から,RoCoは優れた性能を実現し,既存の手法よりも優れた競争力を連続的に生み出すことがわかった。
- 参考スコア(独自算出の注目度): 7.444203010403499
- License:
- Abstract: Automatic Heuristic Design (AHD) has gained traction as a promising solution for solving combinatorial optimization problems (COPs). Large Language Models (LLMs) have emerged and become a promising approach to achieving AHD, but current LLM-based AHD research often only considers a single role. This paper proposes RoCo, a novel Multi-Agent Role-Based System, to enhance the diversity and quality of AHD through multi-role collaboration. RoCo coordinates four specialized LLM-guided agents-explorer, exploiter, critic, and integrator-to collaboratively generate high-quality heuristics. The explorer promotes long-term potential through creative, diversity-driven thinking, while the exploiter focuses on short-term improvements via conservative, efficiency-oriented refinements. The critic evaluates the effectiveness of each evolution step and provides targeted feedback and reflection. The integrator synthesizes proposals from the explorer and exploiter, balancing innovation and exploitation to drive overall progress. These agents interact in a structured multi-round process involving feedback, refinement, and elite mutations guided by both short-term and accumulated long-term reflections. We evaluate RoCo on five different COPs under both white-box and black-box settings. Experimental results demonstrate that RoCo achieves superior performance, consistently generating competitive heuristics that outperform existing methods including ReEvo and HSEvo, both in white-box and black-box scenarios. This role-based collaborative paradigm establishes a new standard for robust and high-performing AHD.
- Abstract(参考訳): AHD(Automatic Heuristic Design)は、組合せ最適化問題(COP)を解決するための有望なソリューションとして注目を集めている。
大規模言語モデル (LLMs) は AHD を達成するための有望なアプローチとなっているが、現在の LLM ベースの AHD 研究はしばしば一つの役割しか考慮していない。
本稿では,マルチロールコラボレーションによるAHDの多様性と品質向上を目的とした,新規なマルチエージェントロールベースシステムであるRoCoを提案する。
RoCoは4つの特殊なLLM誘導エージェント、エクスプローラー、批評家、インテグレータを調整し、高品質なヒューリスティックを共同で生成する。
エクスプローラーは創造的で多様性を重視した思考を通じて長期的な可能性を促進し、エクスプローラーは保守的で効率性を重視した改善を通じて短期的な改善に焦点を当てている。
批評家は、各進化ステップの有効性を評価し、目標とするフィードバックとリフレクションを提供する。
インテグレータはエクスプローラーとエクスプローラーの提案を合成し、全体的な進歩を促進するためにイノベーションとエクスプローラーのバランスをとる。
これらのエージェントは、短期的および蓄積された長期的反射の両方によって誘導されるフィードバック、洗練、エリート突然変異を含む、構造化された多ラウンドプロセスで相互作用する。
ホワイトボックスとブラックボックスの両方の設定で,5種類のCOP上でのRoCoの評価を行った。
実験の結果、RoCoは優れた性能を示し、ホワイトボックスとブラックボックスの両方のシナリオにおいて、ReEvoやHSEvoといった既存の手法よりも優れた競合ヒューリスティックを生成する。
このロールベースの協調パラダイムは、堅牢で高性能なAHDのための新しい標準を確立する。
関連論文リスト
- CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:50:26Z) - Diversity-Enhanced Reasoning for Subjective Questions [24.896059589693607]
多様性を高めるトレーニングフレームワークであるMultiRole-R1は、様々な役割の観点から推論チェーンを合成する。
ドメイン内精度とドメイン外精度を14.1%と7.64%向上させ、AIME 2024のような高度な数学推論の性能も向上させる。
論文 参考訳(メタデータ) (2025-07-27T09:07:42Z) - RedAHD: Reduction-Based End-to-End Automatic Heuristic Design with Large Language Models [14.544461392180668]
我々は,これらのLCMに基づく設計手法を人間を必要とせずに動作させることができる,RedAHDという新しいエンドツーエンドフレームワークを提案する。
より具体的には、RedAHD は LLM を用いて還元プロセスの自動化、すなわち手元のCOPをよりよく理解された類似のCOPに変換する。
6つのCOPで評価した実験結果から,RedAHDは人間の関与を最小限に抑えた最先端の手法よりも設計や改善が可能であることが示された。
論文 参考訳(メタデータ) (2025-05-26T17:21:16Z) - LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.343021413805699]
マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文 参考訳(メタデータ) (2025-03-25T06:28:42Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。
模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。
RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文 参考訳(メタデータ) (2025-03-03T12:54:54Z) - ReEvo: Large Language Models as Hyper-Heuristics with Reflective Evolution [35.39046514910755]
本稿では,言語ハイパーヒューリスティックス(LHHs)について紹介する。
LHHを効果的に探索するための進化探索(ReEvo)と、空間内の言語的勾配を提供する反射の新たな統合である。
論文 参考訳(メタデータ) (2024-02-02T05:04:51Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - CURO: Curriculum Learning for Relative Overgeneralization [6.573807158449973]
相対的オーバージェネリゼーション(Relative Over generalization, RO)は、協調的なマルチエージェントタスクで発生する病理である。
相対オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T03:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。