論文の概要: A Survey on Progress in LLM Alignment from the Perspective of Reward Design
- arxiv url: http://arxiv.org/abs/2505.02666v2
- Date: Fri, 29 Aug 2025 15:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.149471
- Title: A Survey on Progress in LLM Alignment from the Perspective of Reward Design
- Title(参考訳): リワード設計からみたLCMアライメントの進展に関する調査
- Authors: Miaomiao Ji, Yanqiu Wu, Zhibin Wu, Shoujin Wang, Jian Yang, Mark Dras, Usman Naseem,
- Abstract要約: リワード設計は、フィードバック信号とモデル最適化の間のブリッジとして機能し、大きな言語モデルを人間の値と整合させる上で重要な役割を担っている。
この調査は、報酬モデリングの構造化された組織を提供し、数学的定式化、建設プラクティス、最適化パラダイムとの相互作用の3つの重要な側面に対処する。
- 参考スコア(独自算出の注目度): 29.9792653187187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design plays a pivotal role in aligning large language models (LLMs) with human values, serving as the bridge between feedback signals and model optimization. This survey provides a structured organization of reward modeling and addresses three key aspects: mathematical formulation, construction practices, and interaction with optimization paradigms. Building on this, it develops a macro-level taxonomy that characterizes reward mechanisms along complementary dimensions, thereby offering both conceptual clarity and practical guidance for alignment research. The progression of LLM alignment can be understood as a continuous refinement of reward design strategies, with recent developments highlighting paradigm shifts from reinforcement learning (RL)-based to RL-free optimization and from single-task to multi-objective and complex settings.
- Abstract(参考訳): リワード設計は、大きな言語モデル(LLM)と人間の値との整合において重要な役割を担い、フィードバック信号とモデル最適化のブリッジとして機能する。
この調査は、報酬モデリングの構造化された組織を提供し、数学的定式化、建設プラクティス、最適化パラダイムとの相互作用の3つの重要な側面に対処する。
これに基づいて、相補的な次元に沿って報酬機構を特徴付けるマクロレベルの分類法を開発し、概念的明瞭さとアライメント研究の実践的ガイダンスを提供する。
LLMアライメントの進展は報酬設計戦略の継続的改善として理解でき、近年の進歩は強化学習(RL)ベースからRLフリー最適化、シングルタスクから多目的・複雑な設定へのパラダイムシフトを強調している。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - REMoH: A Reflective Evolution of Multi-objective Heuristics approach via Large Language Models [39.85828629779943]
多目的最適化は、複雑な意思決定タスクにおいて基礎となる。
大規模言語モデル(LLM)の最近の進歩は、説明可能性、適応性、推論の強化を提供する。
本研究では,NSGA-II と LLM を融合した新たなフレームワークである REMoH (Reflectionive Evolution of Multi-Objective Heuristics) を提案する。
論文 参考訳(メタデータ) (2025-06-09T13:38:28Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。
広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Survey of Decomposition-Based Evolutionary Multi-Objective Optimization: Part I-Past and Future [5.074835777266041]
進化的多目的最適化の文脈では分解は適切に研究されなかった。
MoEA/Dは、この領域の最新の開発をレビューするために、分解ベースのEMOの代表である。
第1部では,MOEA/Dの発展を起源から現在までの包括的調査を行う。
最終段階では、今後の発展に向けての新たな方向性に光を当てています。
論文 参考訳(メタデータ) (2024-04-22T20:34:46Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。