論文の概要: Do Language Models Understand Morality? Towards a Robust Detection of Moral Content
- arxiv url: http://arxiv.org/abs/2406.04143v1
- Date: Thu, 6 Jun 2024 15:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:30:04.819421
- Title: Do Language Models Understand Morality? Towards a Robust Detection of Moral Content
- Title(参考訳): 言語モデルはモラルを理解するか? : モラル内容のロバストな検出に向けて
- Authors: Luana Bulla, Aldo Gangemi, Misael Mongiovì,
- Abstract要約: 抽象概念と常識知識を活用する新しいシステムを導入する。
そこで本研究では,現実のシナリオにおける道徳的価値を検出するために,多目的で堅牢な手法を開発することを目的とする。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of detecting moral values in text has significant implications in various fields, including natural language processing, social sciences, and ethical decision-making. Previously proposed supervised models often suffer from overfitting, leading to hyper-specialized moral classifiers that struggle to perform well on data from different domains. To address this issue, we introduce novel systems that leverage abstract concepts and common-sense knowledge acquired from Large Language Models and Natural Language Inference models during previous stages of training on multiple data sources. By doing so, we aim to develop versatile and robust methods for detecting moral values in real-world scenarios. Our approach uses the GPT 3.5 model as a zero-shot ready-made unsupervised multi-label classifier for moral values detection, eliminating the need for explicit training on labeled data. We compare it with a smaller NLI-based zero-shot model. The results show that the NLI approach achieves competitive results compared to the Davinci model. Furthermore, we conduct an in-depth investigation of the performance of supervised systems in the context of cross-domain multi-label moral value detection. This involves training supervised models on different domains to explore their effectiveness in handling data from different sources and comparing their performance with the unsupervised methods. Our contributions encompass a thorough analysis of both supervised and unsupervised methodologies for cross-domain value detection. We introduce the Davinci model as a state-of-the-art zero-shot unsupervised moral values classifier, pushing the boundaries of moral value detection without the need for explicit training on labeled data. Additionally, we perform a comparative evaluation of our approach with the supervised models, shedding light on their respective strengths and weaknesses.
- Abstract(参考訳): テキストにおける道徳的価値を検出するタスクは、自然言語処理、社会科学、倫理的意思決定など、様々な分野で重要な意味を持つ。
従来提案された教師付きモデルは、しばしば過度な適合に悩まされ、異なるドメインのデータでうまく機能するのに苦労する、過度に専門化されたモラル分類器に繋がる。
この問題に対処するために,複数のデータソースのトレーニングの前の段階において,大規模言語モデルと自然言語推論モデルから得られた抽象概念と常識知識を活用する新しいシステムを導入する。
そこで本研究では,現実のシナリオにおける道徳的価値を検出する汎用的で堅牢な手法を開発することを目的とする。
提案手法では,GPT 3.5モデルをモラル値検出のためのゼロショット対応無教師付きマルチラベル分類器として使用し,ラベル付きデータに対する明示的なトレーニングを不要とした。
より小さなNLIベースのゼロショットモデルと比較する。
その結果,NLI法はダヴィンチモデルと比較して競争力のある結果が得られることがわかった。
さらに、クロスドメインマルチラベル道徳的価値検出の文脈において、教師付きシステムの性能を詳細に調査する。
これには、異なるドメイン上の教師付きモデルをトレーニングし、異なるソースからのデータを処理し、教師なしのメソッドとパフォーマンスを比較して、その有効性を調べることが含まれる。
我々の貢献は、クロスドメイン値検出のための教師なしおよび教師なしの両方の方法論の徹底的な分析を含む。
我々は、ダヴィンチモデルを最先端のゼロショット非教師付きモラル値分類器として導入し、ラベル付きデータに対する明示的なトレーニングを必要とせず、モラル値検出の境界を推し進める。
さらに、教師付きモデルによるアプローチの比較評価を行い、それぞれの強みと弱みに光を当てる。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation [48.25619775814776]
本稿では,拡散モードに基づく正データ生成を用いた新しい教師なしコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件拡散モデルから構成されており、条件拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成する。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-10T13:28:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。