論文の概要: Alignment at Pre-training! Towards Native Alignment for Arabic LLMs
- arxiv url: http://arxiv.org/abs/2412.03253v1
- Date: Wed, 04 Dec 2024 11:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:54.225286
- Title: Alignment at Pre-training! Towards Native Alignment for Arabic LLMs
- Title(参考訳): プレトレーニングにおけるアライメント! アラビア語LLMのネイティブアライメントに向けて
- Authors: Juhao Liang, Zhenyang Cai, Jianqing Zhu, Huang Huang, Kewei Zong, Bang An, Mosen Alharthi, Juncai He, Lian Zhang, Haizhou Li, Benyou Wang, Jinchao Xu,
- Abstract要約: 我々は、ネイティブアライメント(ネイティブアライメント)と呼ばれる事前トレーニングフェーズにおけるアライメントが、調査を保証していると主張している。
ネイティブアライメントは、ポストホック処理に頼るのではなく、アンアライメントのないコンテンツを最初から防止することを目的としている。
モデル性能とアライメント安定性に対するネイティブアライメントの影響を評価するため,包括的実験およびアブレーション研究を行った。
- 参考スコア(独自算出の注目度): 47.796027415273
- License:
- Abstract: The alignment of large language models (LLMs) is critical for developing effective and safe language models. Traditional approaches focus on aligning models during the instruction tuning or reinforcement learning stages, referred to in this paper as `post alignment'. We argue that alignment during the pre-training phase, which we term `native alignment', warrants investigation. Native alignment aims to prevent unaligned content from the beginning, rather than relying on post-hoc processing. This approach leverages extensively aligned pre-training data to enhance the effectiveness and usability of pre-trained models. Our study specifically explores the application of native alignment in the context of Arabic LLMs. We conduct comprehensive experiments and ablation studies to evaluate the impact of native alignment on model performance and alignment stability. Additionally, we release open-source Arabic LLMs that demonstrate state-of-the-art performance on various benchmarks, providing significant benefits to the Arabic LLM community.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは、効率的かつ安全な言語モデルを開発する上で重要である。
従来の手法では、命令チューニングや強化学習の段階でモデルを整列させることに重点を置いており、この論文では「ポストアライメント」と呼ばれている。
我々は,「ネイティブアライメント」と呼ぶ事前学習段階におけるアライメントが,調査を保証していると主張している。
ネイティブアライメントは、ポストホック処理に頼るのではなく、アンアライメントのないコンテンツを最初から防止することを目的としている。
このアプローチは、広範囲に整列した事前学習データを活用し、事前学習されたモデルの有効性とユーザビリティを高める。
本研究では,アラビア語LLMの文脈におけるネイティブアライメントの適用について検討した。
モデル性能とアライメント安定性に対するネイティブアライメントの影響を評価するため,包括的実験およびアブレーション研究を行った。
さらに、さまざまなベンチマークで最先端のパフォーマンスを示すオープンソースのアラビア語 LLM をリリースし、アラビア語 LLM コミュニティに多大な利益をもたらす。
関連論文リスト
- MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z) - Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models [44.38073745307387]
本研究では,大規模言語モデル(LLM)とオフラインの嗜好データとの整合性について検討する。
オフラインRL文献から平均的な悲観的手法にインスパイアされた,セルフプレイによる新たなオフライン優先最適化手法であるSPACを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:23:49Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - From Robustness to Improved Generalization and Calibration in Pre-trained Language Models [0.0]
本稿では,前訓練言語モデル(PLM)の性能向上において,ジャコビアン正規化とヘッセン正規化によって達成される表現の滑らかさの役割について検討する。
PLM中間表現におけるヤコビ行列とヘッセン行列のノルムを最小化する新しい二相正規化手法であるジャコビウスを導入する。
GLUEベンチマークを用いて評価したところ, JacHess は PLM の領域内一般化とキャリブレーションを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-31T18:08:37Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。