論文の概要: Beyond Labels: Aligning Large Language Models with Human-like Reasoning
- arxiv url: http://arxiv.org/abs/2408.11879v1
- Date: Tue, 20 Aug 2024 17:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:16:33.397382
- Title: Beyond Labels: Aligning Large Language Models with Human-like Reasoning
- Title(参考訳): Beyond Labels: ヒューマンライクな推論による大規模言語モデルのアラインメント
- Authors: Muhammad Rafsan Kabir, Rafeed Mohammad Sultan, Ihsanul Haque Asif, Jawad Ibn Ahad, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman,
- Abstract要約: 我々は,言語モデルの整合化を支援するために,DFAR(Aligning Reasons)のための倫理データセットをキュレートした。
データセットには倫理的非倫理的なラベルとそれに対応する理由が記載されている。
本研究では,倫理ラベルとそれに対応する理由を利用した,独特で斬新な微調整アプローチを採用した。
- 参考スコア(独自算出の注目度): 6.76844617716829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with a human reasoning approach ensures that LLMs produce morally correct and human-like decisions. Ethical concerns are raised because current models are prone to generating false positives and providing malicious responses. To contribute to this issue, we have curated an ethics dataset named Dataset for Aligning Reasons (DFAR), designed to aid in aligning language models to generate human-like reasons. The dataset comprises statements with ethical-unethical labels and their corresponding reasons. In this study, we employed a unique and novel fine-tuning approach that utilizes ethics labels and their corresponding reasons (L+R), in contrast to the existing fine-tuning approach that only uses labels (L). The original pre-trained versions, the existing fine-tuned versions, and our proposed fine-tuned versions of LLMs were then evaluated on an ethical-unethical classification task and a reason-generation task. Our proposed fine-tuning strategy notably outperforms the others in both tasks, achieving significantly higher accuracy scores in the classification task and lower misalignment rates in the reason-generation task. The increase in classification accuracies and decrease in misalignment rates indicate that the L+R fine-tuned models align more with human ethics. Hence, this study illustrates that injecting reasons has substantially improved the alignment of LLMs, resulting in more human-like responses. We have made the DFAR dataset and corresponding codes publicly available at https://github.com/apurba-nsu-rnd-lab/DFAR.
- Abstract(参考訳): 人間の推論アプローチで大きな言語モデル(LLM)を調整することで、LLMが道徳的に正しい人間的な決定を下すことが保証される。
倫理的懸念は、現在のモデルは偽陽性を発生させ、悪意のある応答を提供する傾向があるためである。
この問題に貢献するため,我々は,言語モデルの整合化を支援するために,Dataset for Aligning Reasons (DFAR)という倫理データセットをキュレートした。
データセットには倫理的非倫理的なラベルとそれに対応する理由が記載されている。
本研究では,倫理ラベルとそれに対応する理由(L+R)を,ラベルのみを用いる既存の微調整アプローチとは対照的に,独特で斬新な微調整アプローチを採用した。
従来の学習済み版,既存の微調整版,提案した微調整版を倫理的非倫理的分類タスクと理生成タスクで評価した。
提案手法は,2つのタスクにおいて他のタスクよりも優れており,分類タスクにおける精度が著しく向上し,理由生成タスクにおけるミスアライメント率も低下する。
分類精度の上昇と誤調整率の低下は、L+R微調整モデルが人間の倫理とより一致していることを示している。
そこで本研究では,LSMのアライメントが大幅に向上し,人間的な反応がより多くなったことを示す。
DFARデータセットと対応するコードは、https://github.com/apurba-nsu-rnd-lab/DFARで公開しています。
関連論文リスト
- Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation [3.328297368052458]
LLMを含むNLPモデルを用いて,医療カリキュラムのバイアス検出に取り組む。
大規模コーパスからの偏見を医学専門家が注釈した4,105点の抜粋を含む金標準データセットで評価した。
論文 参考訳(メタデータ) (2024-09-11T17:10:20Z) - Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing [39.93490432227601]
大きな言語モデル(LLM)は大きなブレークスルーを達成したが、生成された非倫理的コンテンツは潜在的なリスクをもたらしている。
LLMの価値アライメントを測定することは、その規制と責任あるデプロイメントにとって不可欠である。
本稿では,LLMの根底にある道徳的基盤を動的に探索する新しい生成的進化テスト手法であるGAAを提案する。
論文 参考訳(メタデータ) (2024-06-20T11:51:00Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Increasing Diversity While Maintaining Accuracy: Text Data Generation
with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。
LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文 参考訳(メタデータ) (2023-06-07T04:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。