論文の概要: RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.02726v1
- Date: Tue, 03 Jun 2025 10:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.592956
- Title: RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models
- Title(参考訳): RACE-Align: 大規模言語モデルの検索強化と連鎖強化
- Authors: Qihang Yan, Xinyu Zhang, Luming Guo, Qi Zhang, Feifan Liu,
- Abstract要約: 本稿では,従来の選好アライメント手法の限界に対処する新しいフレームワークであるRAS-Alignを紹介する。
RACE-Alignは、外部知識サポートと明示的なChain-of-Thought(CoT)推論を組み込んだバイナリ優先データセットを体系的に構築する。
Qwen3-1.7Bをベースモデルとして用いた伝統的な中国医学(TCM)における実験的検証は、RAS-Alignが元のベースモデルよりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 11.107932406541865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) struggle with accuracy, domain-specific reasoning, and interpretability in vertical domains. Traditional preference alignment methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) often overlook the underlying knowledge sources and reasoning logic. This paper introduces RACE-Align (Retrieval-Augmented and Chain-of-Thought Enhanced Alignment), a novel framework designed to address these limitations. RACE-Align systematically constructs a binary preference dataset incorporating external knowledge support and explicit Chain-of-Thought (CoT) reasoning, then aligns LLMs using the DPO algorithm. The core innovation lies in its preference data construction strategy: it integrates AI-driven retrieval for factual grounding, enhancing knowledgeability and accuracy, and emphasizes the optimization of domain-specific CoT, treating the reasoning process itself as a key preference dimension. A multi-stage, AI-driven refinement pipeline cost-effectively generates these preference pairs. Experimental validation in Traditional Chinese Medicine (TCM) using Qwen3-1.7B as the base model demonstrates that RACE-Align significantly outperforms the original base model and a model fine-tuned only with Supervised Fine-Tuning (SFT). Improvements were observed across multiple dimensions, including answer accuracy, information richness, application of TCM thinking patterns, logicality and depth of reasoning, and interpretability. These findings suggest RACE-Align offers an effective pathway to enhance LLMs' knowledge application, reasoning reliability, and process transparency in complex vertical domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、垂直領域における精度、ドメイン固有の推論、解釈可能性に苦しむ。
Reinforcement Learning from Human Feedback (RLHF) や Direct Preference Optimization (DPO) といった従来の選好アライメント手法は、基礎となる知識源や推論ロジックを見落としていることが多い。
本稿では,これらの制約に対処する新しいフレームワークであるRAS-Align(Retrieval-Augmented and Chain-of-Thought Enhanced Alignment)を紹介する。
RACE-Alignは、外部知識サポートと明示的なChain-of-Thought(CoT)推論を組み込んだバイナリ優先データセットを体系的に構築し、DPOアルゴリズムを用いてLCMを整列する。
事実的根拠付けのためのAI駆動検索を統合し、知識可能性と正確性を高め、ドメイン固有のCoTの最適化を強調し、推論プロセス自体を重要な優先次元として扱う。
マルチステージAI駆動の精錬パイプラインは、これらの選好ペアをコスト効率よく生成する。
Qwen3-1.7Bをベースモデルとした中国伝統医学(TCM)における実験的検証は、RAS-Alignが元のベースモデルとスーパーバイザード・ファインチューニング(SFT)でのみ微調整されたモデルよりも大幅に優れていることを示した。
回答の精度、情報豊かさ、TCM思考パターンの適用、論理性と推論の深さ、解釈可能性など、様々な側面で改善が観察された。
これらの結果から,RAS-Align は LLM の知識応用,信頼性の推論,複雑な垂直領域におけるプロセス透過性を高める効果的な経路を提供すると考えられる。
関連論文リスト
- Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。