論文の概要: Aligning Large Language Models with Human: A Survey
- arxiv url: http://arxiv.org/abs/2307.12966v1
- Date: Mon, 24 Jul 2023 17:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:23:39.336273
- Title: Aligning Large Language Models with Human: A Survey
- Title(参考訳): 人間による大規模言語モデルのアライメント:調査
- Authors: Yufei Wang, Wanjun Zhong, Liangyou Li, Fei Mi, Xingshan Zeng, Wenyong
Huang, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
- 参考スコア(独自算出の注目度): 53.6014921995006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) trained on extensive textual corpora have
emerged as leading solutions for a broad array of Natural Language Processing
(NLP) tasks. Despite their notable performance, these models are prone to
certain limitations such as misunderstanding human instructions, generating
potentially biased content, or factually incorrect (hallucinated) information.
Hence, aligning LLMs with human expectations has become an active area of
interest within the research community. This survey presents a comprehensive
overview of these alignment technologies, including the following aspects. (1)
Data collection: the methods for effectively collecting high-quality
instructions for LLM alignment, including the use of NLP benchmarks, human
annotations, and leveraging strong LLMs. (2) Training methodologies: a detailed
review of the prevailing training methods employed for LLM alignment. Our
exploration encompasses Supervised Fine-tuning, both Online and Offline human
preference training, along with parameter-efficient training mechanisms. (3)
Model Evaluation: the methods for evaluating the effectiveness of these
human-aligned LLMs, presenting a multifaceted approach towards their
assessment. In conclusion, we collate and distill our findings, shedding light
on several promising future research avenues in the field. This survey,
therefore, serves as a valuable resource for anyone invested in understanding
and advancing the alignment of LLMs to better suit human-oriented tasks and
expectations. An associated GitHub link collecting the latest papers is
available at https://github.com/GaryYufei/AlignLLMHumanSurvey.
- Abstract(参考訳): 広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に不正確な(幻覚的な)情報を生成するなど、一定の制限を受ける傾向がある。
したがって、LLMと人間の期待の一致は、研究コミュニティの中で活発な関心領域となっている。
本稿では,これらのアライメント技術の包括的概要について概観する。
1)データ収集:NLPベンチマーク,人間のアノテーション,強力なLCMの活用など,LCMアライメントのための高品質な命令を効果的に収集する手法。
2) トレーニング方法論: LLMアライメントに使用される一般的なトレーニング手法の詳細なレビュー。
調査では、オンラインとオフラインの両方の人間の嗜好トレーニングとパラメータ効率のトレーニングメカニズムについて調べる。
3) モデル評価: これらの人間協調型llmの有効性を評価するための手法であり、その評価に対する多面的アプローチを示す。
結論として,本研究の成果を合理化して蒸留し,将来有望な研究経路に光を当てる。
したがって、この調査は、人間指向のタスクや期待に合うように、LLMのアライメントを理解し、前進させることに投資する人にとって、貴重なリソースとなる。
最新の論文を収集するGitHubリンクはhttps://github.com/GaryYufei/AlignLLMHumanSurveyで公開されている。
関連論文リスト
- A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Exploring the landscape of large language models: Foundations, techniques, and challenges [8.042562891309414]
この記事では、コンテキスト内学習の力学と微調整アプローチのスペクトルについて光を当てている。
革新的な強化学習フレームワークを通じて、LLMが人間の好みとより緊密に連携する方法について検討する。
LLMデプロイメントの倫理的側面は議論され、マインドフルで責任あるアプリケーションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-18T08:01:20Z) - Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions [2.5179515260542544]
大規模言語モデル (LLM) は、テキスト生成、質問応答、テキスト要約における汎用的な応用のために、学界や業界全体で大きな注目を集めている。
パフォーマンスを定量化するためには、既存のメトリクスを包括的に把握することが重要です。
本稿では,メトリクスの観点からLLM評価を包括的に調査し,現在使用されているメトリクスの選択と解釈について考察する。
論文 参考訳(メタデータ) (2024-04-14T03:54:00Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。
本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - A Survey on Prompting Techniques in LLMs [0.0]
自己回帰型大規模言語モデルは自然言語処理のランドスケープに変化をもたらした。
本研究は,既存の文献の分類手法について紹介し,この分類法に基づく簡潔な調査を行う。
我々は、将来の研究の方向性として役立つ自己回帰型LSMの推進という領域において、いくつかの未解決の問題を特定した。
論文 参考訳(メタデータ) (2023-11-28T17:56:34Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。