Fugu-MT 論文翻訳(概要): A Survey on Post-training of Large Language Models

論文の概要: A Survey on Post-training of Large Language Models

arxiv url: http://arxiv.org/abs/2503.06072v1
Date: Sat, 08 Mar 2025 05:41:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.154689
Title: A Survey on Post-training of Large Language Models
Title（参考訳）: 大規模言語モデルのポストトレーニングに関する調査研究
Authors: Guiyao Tie, Zeli Zhao, Dingjie Song, Fuyang Wei, Rong Zhou, Yurou Dai, Wen Yin, Zhejian Yang, Jiangyue Yan, Yao Su, Zhenhan Dai, Yifeng Xie, Yihan Cao, Lichao Sun, Pan Zhou, Lifang He, Hechang Chen, Yu Zhang, Qingsong Wen, Tianming Liu, Neil Zhenqiang Gong, Jiliang Tang, Caiming Xiong, Heng Ji, Philip S. Yu, Jianfeng Gao,
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
参考スコア（独自算出の注目度）: 185.51013463503946
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Large Language Models (LLMs) has fundamentally transformed natural language processing, making them indispensable across domains ranging from conversational systems to scientific exploration. However, their pre-trained architectures often reveal limitations in specialized contexts, including restricted reasoning capacities, ethical uncertainties, and suboptimal domain-specific performance. These challenges necessitate advanced post-training language models (PoLMs) to address these shortcomings, such as OpenAI-o1/o3 and DeepSeek-R1 (collectively known as Large Reasoning Models, or LRMs). This paper presents the first comprehensive survey of PoLMs, systematically tracing their evolution across five core paradigms: Fine-tuning, which enhances task-specific accuracy; Alignment, which ensures alignment with human preferences; Reasoning, which advances multi-step inference despite challenges in reward design; Efficiency, which optimizes resource utilization amidst increasing complexity; and Integration and Adaptation, which extend capabilities across diverse modalities while addressing coherence issues. Charting progress from ChatGPT's foundational alignment strategies to DeepSeek-R1's innovative reasoning advancements, we illustrate how PoLMs leverage datasets to mitigate biases, deepen reasoning capabilities, and enhance domain adaptability. Our contributions include a pioneering synthesis of PoLM evolution, a structured taxonomy categorizing techniques and datasets, and a strategic agenda emphasizing the role of LRMs in improving reasoning proficiency and domain flexibility. As the first survey of its scope, this work consolidates recent PoLM advancements and establishes a rigorous intellectual framework for future research, fostering the development of LLMs that excel in precision, ethical robustness, and versatility across scientific and societal applications.
Abstract（参考訳）: LLM(Large Language Models)の出現は、自然言語処理を根本的に変え、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。しかし、それらの事前訓練されたアーキテクチャは、制限された推論能力、倫理的不確実性、最適でないドメイン固有のパフォーマンスなど、特別な文脈における制限を明らかにすることが多い。これらの課題は、OpenAI-o1/o3やDeepSeek-R1(Large Reasoning Models, LRMs)など、これらの欠点に対処するために、高度な後トレーニング言語モデル(PoLM)を必要とする。本稿では,タスク固有の精度を向上するファインチューニング,人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階推論を進める推論,複雑さの増大に伴い資源利用を最適化する効率,コヒーレンス問題に対処しながら多様なモダリティにまたがる機能を拡張する統合と適応という,5つのパラダイムの進化を体系的に追跡する最初の包括的調査を行う。 ChatGPTの基本的なアライメント戦略からDeepSeek-R1の革新的な推論の進歩への進捗をグラフ化し、PoLMがデータセットを活用してバイアスを緩和し、推論機能を強化し、ドメイン適応性を高める方法について説明する。我々の貢献には、PoLM進化の先駆的な合成、構造的分類技術とデータセットの分類、推論能力とドメインの柔軟性の向上におけるLEMの役割を強調する戦略的アジェンダが含まれる。この研究は、そのスコープに関する最初の調査として、最近のPoLMの進歩を集約し、将来の研究のための厳密な知的枠組みを確立し、科学的・社会的な応用にまたがる正確性、倫理的堅牢性、汎用性に優れたLCMの開発を促進する。

関連論文リスト

Large Language Models in Argument Mining: A Survey [15.041650203089057]
Argument Mining (AM) はテキストから議論的構造を抽出することに焦点を当てている。 LLM(Large Language Models)の出現は、AMを大きく変化させ、高度な文脈内学習を可能にした。本研究は, LLM駆動型AMの最近の進歩を体系的に合成する。
論文参考訳（メタデータ） (2025-06-19T15:12:58Z)
Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics [0.46174569259495524]
本稿では,Large Language Models(LLMs)の分野における重要な展開について概説する。人間と機械のコミュニケーションのギャップを埋めるのに最も効果的なテクニックには、Chain-of-Thought prompting、Instruction Tuning、Reinforcement Learning from Human Feedbackなどがある。効率性、スケーリング戦略、最適化テクニック、および影響力のあるMixture-of-Experts(MoE)アーキテクチャについて、重要な焦点が当てられている。
論文参考訳（メタデータ） (2025-06-14T05:55:19Z)
Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文参考訳（メタデータ） (2025-05-23T07:30:13Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。近年の研究では、空間的推論能力の限界が明らかにされている。この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文参考訳（メタデータ） (2025-04-21T11:48:39Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
An LLM-based Delphi Study to Predict GenAI Evolution [0.6138671548064356]
本研究では,大規模言語モデルを用いた定性的予測手法を提案する。この手法は、ジェネレーティブ・人工知能の将来的な進化を探求するために応用された。
論文参考訳（メタデータ） (2025-02-28T14:31:25Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。 SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文参考訳（メタデータ） (2024-12-19T08:28:18Z)
The Role of Deductive and Inductive Reasoning in Large Language Models [37.430396755248104]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。 DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。その結果,推理精度と解の精度は有意に向上した。
論文参考訳（メタデータ） (2024-10-03T18:30:47Z)
Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文参考訳（メタデータ） (2024-06-26T00:00:45Z)
When Large Language Models Meet Evolutionary Algorithms: Potential Enhancements and Challenges [50.280704114978384]
事前訓練された大規模言語モデル(LLM)は、自然なテキストを生成する強力な能力を示す。進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
論文参考訳（メタデータ） (2024-01-19T05:58:30Z)
Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap [26.959633651475016]
大規模言語モデル(LLM)と進化的アルゴリズム(EA)の相互作用は、複雑な問題における適用可能性の共通の追求を共有している。 LLMに固有の豊富なドメイン知識により、EAはよりインテリジェントな検索を行うことができる。本稿では、相互インスピレーションを2つの主要な道に分類する、徹底的なレビューと前方のロードマップを提供する。
論文参考訳（メタデータ） (2024-01-18T14:58:17Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。