論文の概要: Towards Efficient and Effective Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.09329v1
- Date: Wed, 11 Jun 2025 02:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.186033
- Title: Towards Efficient and Effective Alignment of Large Language Models
- Title(参考訳): 大規模言語モデルの効率的かつ効果的なアライメントを目指して
- Authors: Yuxin Jiang,
- Abstract要約: 大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
- 参考スコア(独自算出の注目度): 7.853945494882636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit remarkable capabilities across diverse tasks, yet aligning them efficiently and effectively with human expectations remains a critical challenge. This thesis advances LLM alignment by introducing novel methodologies in data collection, training, and evaluation. We first address alignment data collection. Existing approaches rely heavily on manually curated datasets or proprietary models. To overcome these limitations, we propose Lion, an adversarial distillation framework that iteratively refines training data by identifying and generating challenging instructions, enabling state-of-the-art zero-shot reasoning. Additionally, we introduce Web Reconstruction (WebR), a fully automated framework that synthesizes instruction-tuning data directly from raw web documents, significantly improving data diversity and scalability over existing synthetic data methods. Next, we enhance alignment training through novel optimization techniques. We develop Learning to Edit (LTE), a framework that enables LLMs to efficiently integrate new knowledge while preserving existing information. LTE leverages meta-learning to improve both real-time and batch knowledge updates. Furthermore, we introduce Bridging and Modeling Correlations (BMC), a refinement of Direct Preference Optimization (DPO) that explicitly captures token-level correlations in preference data, leading to superior alignment across QA and mathematical reasoning tasks. Finally, we tackle the challenge of evaluating alignment. Existing benchmarks emphasize response quality but overlook adherence to specific constraints. To bridge this gap, we introduce FollowBench, a multi-level, fine-grained benchmark assessing LLMs' ability to follow complex constraints across diverse instruction types. Our results expose key weaknesses in current models' constraint adherence, offering insights for future improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
まずアライメントデータ収集に対処します。
既存のアプローチは、手動でキュレートされたデータセットやプロプライエタリなモデルに大きく依存している。
これらの制限を克服するために,我々は,挑戦的な命令を識別して生成することにより,訓練データを反復的に洗練し,最先端のゼロショット推論を可能にする,逆蒸留フレームワークであるLionを提案する。
さらに、Web Restruction(WebR)は、生のWebドキュメントから直接命令チューニングデータを合成し、既存の合成データメソッドよりもデータの多様性とスケーラビリティを大幅に改善する、完全に自動化されたフレームワークである。
次に,新しい最適化手法によりアライメントトレーニングを強化する。
我々は,LLMが既存の情報を保持しつつ,新たな知識を効率的に統合できるフレームワークであるLearning to Edit(LTE)を開発した。
LTEはメタラーニングを活用して、リアルタイムとバッチの知識更新を改善する。
さらに、直接選好最適化(DPO)を改良したブリジング・アンド・モデリング・リレーションシップ(BMC)を導入し、優先データにおけるトークンレベルの相関を明示的に把握し、QAおよび数学的推論タスクの整合性を向上させる。
最後に、アライメントを評価するという課題に取り組む。
既存のベンチマークでは、レスポンスの品質を強調しているが、特定の制約に対する見落としている。
このギャップを埋めるために、多様な命令タイプにまたがる複雑な制約に従うLLMの能力を評価するマルチレベルできめ細かなベンチマークであるFollowBenchを紹介します。
我々の結果は、現在のモデルの制約順守における重要な弱点を明らかにし、将来の改善に対する洞察を与えます。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。
高品質な出力を持つデータセットを自動構築するパイプラインを設計する。
データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。
我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-01-09T03:34:07Z) - Learning to Unlearn for Robust Machine Unlearning [6.488418950340473]
学習過程を最適化する新しいLTU(Learning-to-Unlearn)フレームワークを提案する。
LTUは、モデルが一般化可能な知識を効果的に保存することを容易にするメタ最適化スキームを含んでいる。
また、記憶と忘れのための最適化トラジェクトリを整列するグラディエント調和戦略も導入する。
論文 参考訳(メタデータ) (2024-07-15T07:36:00Z) - How Data Inter-connectivity Shapes LLMs Unlearning: A Structural Unlearning Perspective [29.924482732745954]
既存のアプローチでは、忘れられるべきデータポイントは独立であり、接続性を無視していると仮定している。
構造データセットをコンパイルする手法であるPISTOLを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - Towards Transparency: Exploring LLM Trainings Datasets through Visual Topic Modeling and Semantic Frame [0.0]
我々は、AIと認知科学を活用してテキストデータセットの洗練を改善するソフトウェアであるBunkaを紹介する。
トピックモデリングと2次元カルトグラフィーを組み合わせることで、データセットの透明性が向上することを示す。
最後に、フレーム分析を用いることで、トレーニングコーパス内の既存のバイアスに対する洞察が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T18:44:13Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。