論文の概要: Towards Alignment-Centric Paradigm: A Survey of Instruction Tuning in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17184v1
- Date: Sun, 24 Aug 2025 01:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.390002
- Title: Towards Alignment-Centric Paradigm: A Survey of Instruction Tuning in Large Language Models
- Title(参考訳): アライメント中心パラダイムに向けて:大規模言語モデルにおけるインストラクションチューニングに関する調査
- Authors: Xudong Han, Junjie Yang, Tianyang Wang, Ziqian Bi, Junfeng Hao, Junhao Song,
- Abstract要約: このサーベイは、命令チューニング戦略の全パイプラインの概要を提供する。
データ構築は、エキスパートアノテーション、より大きなモデルからの蒸留、自己改善メカニズムの3つの主要なパラダイムに分類した。
我々は、自動データ生成、適応最適化、堅牢な評価フレームワークのための有望な方向性について議論する。
- 参考スコア(独自算出の注目度): 20.544181414963877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is a pivotal technique for aligning large language models (LLMs) with human intentions, safety constraints, and domain-specific requirements. This survey provides a comprehensive overview of the full pipeline, encompassing (i) data collection methodologies, (ii) full-parameter and parameter-efficient fine-tuning strategies, and (iii) evaluation protocols. We categorized data construction into three major paradigms: expert annotation, distillation from larger models, and self-improvement mechanisms, each offering distinct trade-offs between quality, scalability, and resource cost. Fine-tuning techniques range from conventional supervised training to lightweight approaches, such as low-rank adaptation (LoRA) and prefix tuning, with a focus on computational efficiency and model reusability. We further examine the challenges of evaluating faithfulness, utility, and safety across multilingual and multimodal scenarios, highlighting the emergence of domain-specific benchmarks in healthcare, legal, and financial applications. Finally, we discuss promising directions for automated data generation, adaptive optimization, and robust evaluation frameworks, arguing that a closer integration of data, algorithms, and human feedback is essential for advancing instruction-tuned LLMs. This survey aims to serve as a practical reference for researchers and practitioners seeking to design LLMs that are both effective and reliably aligned with human intentions.
- Abstract(参考訳): インストラクションチューニングは、大きな言語モデル(LLM)を人間の意図、安全性の制約、ドメイン固有の要件と整合させるための重要なテクニックである。
この調査では、完全なパイプラインの概要を包括的に紹介する。
(i)データ収集方法
(二)全パラメータ及びパラメータ効率の良い微調整方略、及び
(三)評価プロトコル。
データ構築は、専門家のアノテーション、より大きなモデルからの蒸留、自己改善メカニズムの3つの主要なパラダイムに分類しました。
ファインチューニング技術は、従来の教師付きトレーニングからローランク適応(LoRA)やプレフィックスチューニングといった軽量なアプローチまで、計算効率とモデル再利用性に重点を置いている。
さらに、多言語およびマルチモーダルシナリオにおける忠実さ、実用性、安全性を評価することの課題について検討し、医療、法律、金融アプリケーションにおけるドメイン固有のベンチマークの出現を強調します。
最後に、自動データ生成、適応最適化、ロバスト評価フレームワークの今後の方向性について論じ、データ、アルゴリズム、人間のフィードバックの密接な統合が、命令調整 LLM の進行に不可欠である、と論じる。
この調査は、人間の意図に効果的かつ確実に適合するLSMを設計しようとする研究者や実践者にとって、実践的な参考となることを目的としている。
関連論文リスト
- Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
データ品質を評価するために,専門性,可読性,推論,清潔さの4つの側面を提案する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、下流タスク性能を3.23倍に改善し、7.2Bパラメータのモデルにスケールする利点がある。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - A Survey of Contextual Optimization Methods for Decision Making under
Uncertainty [47.73071218563257]
この記事では、データからポリシーを学ぶための3つの主要なフレームワークを特定し、その強みと限界について論じる。
統一的な表記と用語の下で既存のモデルとメソッドを示し、これらを3つの主要なフレームワークに従って分類する。
論文 参考訳(メタデータ) (2023-06-17T15:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。