論文の概要: Inference-Aware Meta-Alignment of LLMs via Non-Linear GRPO
- arxiv url: http://arxiv.org/abs/2602.01603v1
- Date: Mon, 02 Feb 2026 03:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.88585
- Title: Inference-Aware Meta-Alignment of LLMs via Non-Linear GRPO
- Title(参考訳): 非線形GRPOによるLLMのメタアライメント
- Authors: Shokichi Takakura, Akifumi Wachi, Rei Higuchi, Kohei Miyaguchi, Taiji Suzuki,
- Abstract要約: 推論対応メタアライメント(IAMA)は、大きな言語モデルを多様な人間の好みに合わせる新しいアプローチである。
IAMAは、異なる推論時間アライメントアルゴリズムによって複数のタスクに効果的にアライメントできるようにベースモデルを訓練する。
確率測度の空間における最適解に確実に収束する非線形GRPOを提案する。
- 参考スコア(独自算出の注目度): 55.574265038358455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) to diverse human preferences is fundamentally challenging since criteria can often conflict with each other. Inference-time alignment methods have recently gained popularity as they allow LLMs to be aligned to multiple criteria via different alignment algorithms at inference time. However, inference-time alignment is computationally expensive since it often requires multiple forward passes of the base model. In this work, we propose inference-aware meta-alignment (IAMA), a novel approach that enables LLMs to be aligned to multiple criteria with limited computational budget at inference time. IAMA trains a base model such that it can be effectively aligned to multiple tasks via different inference-time alignment algorithms. To solve the non-linear optimization problems involved in IAMA, we propose non-linear GRPO, which provably converges to the optimal solution in the space of probability measures.
- Abstract(参考訳): 大きな言語モデル(LLM)を多種多様な人間の嗜好に適応させることは、基準が相反することが多いため、根本的に困難である。
推論時間アライメント法は,LLMを異なるアライメントアルゴリズムを用いて複数の基準に整列させることで,近年普及している。
しかしながら、推論時間アライメントは、ベースモデルの複数の前方パスを必要とすることが多いため、計算的にコストがかかる。
本研究では,推論時の計算予算に制限のある複数の基準にLLMを適合させる新しい手法として,推論対応メタアライメント(IAMA)を提案する。
IAMAは、異なる推論時間アライメントアルゴリズムによって複数のタスクに効果的にアライメントできるようにベースモデルを訓練する。
IAMAに関わる非線形最適化問題を解くために,確率測度空間における最適解に確実に収束する非線形GRPOを提案する。
関連論文リスト
- Multi-Objective Hierarchical Optimization with Large Language Models [41.41567058185742]
大規模言語モデル(LLM)は、多目的最適化を推進するための既定の選択肢ではない。
本稿では,このギャップを,構造化階層型探索戦略内での代理モデルと候補サンプルとしてLLMを活用することで解決する。
論文 参考訳(メタデータ) (2026-01-20T12:10:13Z) - Pareto Multi-Objective Alignment for Language Models [7.9051473654430655]
大規模言語モデル(LLM)は、複数の、しばしば矛盾する、目的の慎重なバランスを必要とする現実世界のアプリケーションに、ますます多くデプロイされている。
LLMにおける多目的アライメント(MOA)を明示的に設計するアルゴリズムを提案する。
PAMAは、マルチオブジェクトRLHFをクローズドフォームソリューションで凸最適化に変換し、スケーラビリティを大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-11T08:54:14Z) - Alignment of large language models with constrained learning [93.2264691508005]
本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
論文 参考訳(メタデータ) (2025-05-26T01:04:56Z) - Aligning Multimodal LLM with Human Preference: A Survey [62.89722942008262]
大規模言語モデル(LLM)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトで幅広い汎用タスクを処理できる。
MLLM(Multimodal Large Language Models)は、視覚的、聴覚的、テキスト的データを含む複雑なタスクに対処する大きな可能性を実証している。
しかし、真理性、安全性、o1のような推論、および人間の嗜好との整合性に関する重要な問題は未解決のままである。
論文 参考訳(メタデータ) (2025-03-18T17:59:56Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。