Fugu-MT 論文翻訳(概要): A Survey on Progress in LLM Alignment from the Perspective of Reward Design

論文の概要: A Survey on Progress in LLM Alignment from the Perspective of Reward Design

arxiv url: http://arxiv.org/abs/2505.02666v1
Date: Mon, 05 May 2025 14:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.701579
Title: A Survey on Progress in LLM Alignment from the Perspective of Reward Design
Title（参考訳）: リワード設計からみたLCMアライメントの進展に関する調査
Authors: Miaomiao Ji, Yanqiu Wu, Zhibin Wu, Shoujin Wang, Jian Yang, Mark Dras, Usman Naseem,
Abstract要約: 人間の価値観と意図を持つ大規模言語モデル(LLM)は、AI研究における中核的な課題である。本研究では,LLMアライメントにおける報酬機構の体系的理論的枠組みによる包括的検討を行う。本研究は、報酬モデリングの進化的傾向を明らかにする体系的な分類枠組みを確立する。
参考スコア（独自算出の注目度）: 24.47393138031339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The alignment of large language models (LLMs) with human values and intentions represents a core challenge in current AI research, where reward mechanism design has become a critical factor in shaping model behavior. This study conducts a comprehensive investigation of reward mechanisms in LLM alignment through a systematic theoretical framework, categorizing their development into three key phases: (1) feedback (diagnosis), (2) reward design (prescription), and (3) optimization (treatment). Through a four-dimensional analysis encompassing construction basis, format, expression, and granularity, this research establishes a systematic classification framework that reveals evolutionary trends in reward modeling. The field of LLM alignment faces several persistent challenges, while recent advances in reward design are driving significant paradigm shifts. Notable developments include the transition from reinforcement learning-based frameworks to novel optimization paradigms, as well as enhanced capabilities to address complex alignment scenarios involving multimodal integration and concurrent task coordination. Finally, this survey outlines promising future research directions for LLM alignment through innovative reward design strategies.
Abstract（参考訳）: 大規模言語モデル(LLM)と人間の価値観と意図との整合性は、報酬メカニズムの設計がモデル行動を形成する上で重要な要素となっている、現在のAI研究における中核的な課題である。本研究は, LLMアライメントにおける報酬機構を体系的な理論的枠組みを用いて包括的に研究し, その発展を(1)フィードバック(診断),(2)報酬設計(説明),(3)最適化(治療)の3つの重要な段階に分類する。本研究は, 構築基盤, 形式, 表現, 粒度を包含する4次元解析により, 報酬モデリングの進化的傾向を明らかにする体系的な分類枠組みを確立する。 LLMアライメントの分野は、いくつかの永続的な課題に直面しているが、近年の報酬設計の進歩は、重要なパラダイムシフトを駆動している。注目すべき開発としては、強化学習ベースのフレームワークから、新しい最適化パラダイムへの移行、マルチモーダル統合と並行タスク調整を含む複雑なアライメントシナリオに対処する機能拡張などがある。最後に、革新的な報酬設計戦略を通じて、LLMアライメントの今後の研究方向性について概説する。

関連論文リスト

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
REMoH: A Reflective Evolution of Multi-objective Heuristics approach via Large Language Models [39.85828629779943]
多目的最適化は、複雑な意思決定タスクにおいて基礎となる。大規模言語モデル(LLM)の最近の進歩は、説明可能性、適応性、推論の強化を提供する。本研究では,NSGA-II と LLM を融合した新たなフレームワークである REMoH (Reflectionive Evolution of Multi-Objective Heuristics) を提案する。
論文参考訳（メタデータ） (2025-06-09T13:38:28Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文参考訳（メタデータ） (2025-03-12T14:44:52Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文参考訳（メタデータ） (2025-02-20T18:42:58Z)
Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。 SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文参考訳（メタデータ） (2024-12-19T08:28:18Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
A Survey of Decomposition-Based Evolutionary Multi-Objective Optimization: Part I-Past and Future [5.074835777266041]
進化的多目的最適化の文脈では分解は適切に研究されなかった。 MoEA/Dは、この領域の最新の開発をレビューするために、分解ベースのEMOの代表である。第1部では,MOEA/Dの発展を起源から現在までの包括的調査を行う。最終段階では、今後の発展に向けての新たな方向性に光を当てています。
論文参考訳（メタデータ） (2024-04-22T20:34:46Z)
A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文参考訳（メタデータ） (2024-04-22T17:43:23Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。