論文の概要: MEMETRON: Metaheuristic Mechanisms for Test-time Response Optimization of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.08643v1
- Date: Tue, 10 Jun 2025 09:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.262349
- Title: MEMETRON: Metaheuristic Mechanisms for Test-time Response Optimization of Large Language Models
- Title(参考訳): メガトロン:大規模言語モデルのテスト時応答最適化のためのメタヒューリスティックメカニズム
- Authors: Son The Nguyen, Theja Tulabandhula,
- Abstract要約: 大規模言語モデル(LLM)は、オープンエンドタスクと構造化タスクの両方にますます使われている。
本稿では,個別のブラックボックス最適化問題としてLCMデコーディングを定式化するタスク非依存フレームワークMEMETRONを紹介する。
我々は,人間の嗜好アライメントタスクの枠組みを評価し,標準的な復号化手法と復号化手法を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 0.6926105253992517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for both open-ended and structured tasks, yet their inference-time behavior is still largely dictated by heuristic decoding strategies such as greedy search, sampling, or reranking. These methods provide limited control and do not explicitly optimize for task-specific objectives. We introduce MEMETRON, a task-agnostic framework that formulates LLM decoding as a discrete black-box optimization problem. MEMETRON leverages hybrid metaheuristic algorithms, GENETRON and ANNETRON, to search the response space, guided by reward models and contextual operations performed by the LLM itself. This approach enables efficient discovery of high-reward responses without requiring model retraining or gradient access. The framework is modular and generalizes across diverse tasks, requiring only a reward function and lightweight prompt templates. We evaluate our framework on the critical human preference alignment task and demonstrate that it significantly outperforms standard decoding and reranking methods, highlighting its potential to improve alignment without model retraining.
- Abstract(参考訳): 大規模言語モデル (LLM) は、オープンエンドタスクと構造化タスクの両方にますます使われているが、推論時の振る舞いは、グリージー検索、サンプリング、再ランクといったヒューリスティックなデコード戦略によって、いまだに大きく規定されている。
これらの手法は限定的な制御を提供し、タスク固有の目的を明示的に最適化しない。
本稿では,個別のブラックボックス最適化問題としてLCMデコーディングを定式化するタスク非依存フレームワークMEMETRONを紹介する。
MEMETRONはGENETRONとANNETRONというハイブリッドメタヒューリスティックアルゴリズムを利用して応答空間を探索し、LLM自体によって実行される報酬モデルとコンテキスト操作によって誘導される。
このアプローチは、モデルの再訓練や勾配アクセスを必要とせずに、高逆応答の効率的な発見を可能にする。
フレームワークはモジュール化され、様々なタスクにまたがって一般化され、報酬関数と軽量プロンプトテンプレートのみを必要とする。
我々は,人間の嗜好アライメントタスクの枠組みを評価し,標準的な復号化手法と復号化手法を著しく上回り,モデルの再訓練を伴わずにアライメントを改善する可能性を強調した。
関連論文リスト
- Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。
彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。
近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文 参考訳(メタデータ) (2025-06-06T23:13:08Z) - Generalizable Heuristic Generation Through Large Language Models with Meta-Optimization [14.919482411153185]
大規模言語モデル (LLM) を用いたヒューリスティック設計が最適化問題に対処するための有望なアプローチとして登場した。
既存のアプローチは、しばしば手動で定義された進化的一般化とシングルタスクのトレーニングスキームに依存している。
本稿では,メタ学習のレベルで機能する新しいフレームワークであるMeta-Optimization of Heuristics(MoH)を提案する。
論文 参考訳(メタデータ) (2025-05-27T08:26:27Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - A Survey on the Optimization of Large Language Model-based Agents [16.733092886211097]
大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文 参考訳(メタデータ) (2025-03-16T10:09:10Z) - Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Towards Generalist Prompting for Large Language Models by Mental Models [105.03747314550591]
大規模言語モデル(LLM)は多くのタスクにおいて素晴らしいパフォーマンスを示している。
最適な性能を達成するには、特別に設計されたプロンプト法が必要である。
本稿では,最適あるいは準最適性能を実現する設計原理に基づくジェネラリストプロンプトの概念を紹介する。
論文 参考訳(メタデータ) (2024-02-28T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。