論文の概要: CounterMoral: Editing Morals in Language Models
- arxiv url: http://arxiv.org/abs/2603.27338v1
- Date: Sat, 28 Mar 2026 17:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.910083
- Title: CounterMoral: Editing Morals in Language Models
- Title(参考訳): CounterMoral: 言語モデルでモラルを編集する
- Authors: Michael Ripa, Jim Davies,
- Abstract要約: 我々は、現在のモデル編集技術が道徳的判断をどの程度修正するかを評価するために作られたベンチマークデータセットであるCounterMoralを紹介する。
複数の言語モデルに様々な編集手法を適用し,その性能を評価する。
- 参考スコア(独自算出の注目度): 0.24368665842316076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in language model technology have significantly enhanced the ability to edit factual information. Yet, the modification of moral judgments, a crucial aspect of aligning models with human values, has garnered less attention. In this work, we introduce CounterMoral, a benchmark dataset crafted to assess how well current model editing techniques modify moral judgments across diverse ethical frameworks. We apply various editing techniques to multiple language models and evaluate their performance. Our findings contribute to the evaluation of language models designed to be ethical.
- Abstract(参考訳): 近年の言語モデル技術の進歩により、事実情報を編集する能力が大幅に向上している。
しかし、モデルと人間の価値を整合させる重要な側面である道徳的判断の修正は、あまり注目されていない。
本研究では,現行のモデル編集手法が様々な倫理的枠組みの道徳的判断をどの程度修正するかを評価するためのベンチマークデータセットであるCounterMoralを紹介する。
複数の言語モデルに様々な編集手法を適用し,その性能を評価する。
本研究は,倫理的にデザインされた言語モデルの評価に寄与する。
関連論文リスト
- On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Evaluation of AI Ethics Tools in Language Models: A Developers' Perspective Case Stud [2.659655189346942]
本稿では,言語モデルにおけるAIETの評価手法を提案する。
モデルカード,ALTAI,FactSheets,Harms Modelingの4つのAIETを選択した。
評価では、AIETの使用と品質に関する開発者の視点を考慮し、モデルに関する倫理的考慮事項の特定に役立てた。
論文 参考訳(メタデータ) (2025-12-16T02:43:37Z) - Aligning Language Models for Icelandic Legal Text Summarization [1.5259290787592112]
本研究では,アイスランドの法的な要約を生成する上で,嗜好に基づくトレーニング技術がモデルの性能を向上させるか否かを検討する。
その結果、選好訓練は、標準的な微調整よりも生成した要約の法的な精度を向上させるが、アイスランド語使用の全体的な品質を著しく向上させるものではないことが示唆された。
論文 参考訳(メタデータ) (2025-04-25T08:55:15Z) - MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions [4.747987317906765]
道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。
自然言語処理(NLP)の最近の進歩は、人文コンテンツにおいて道徳的価値を測ることができることを示している。
本稿では、社会談話における道徳的感情を捉えるために微調整された言語表現モデルであるMoralBERTを紹介する。
論文 参考訳(メタデータ) (2024-03-12T14:12:59Z) - Flexible Model Interpretability through Natural Language Model Editing [29.547086048644545]
人的関心の概念に関して、モデル行動を体系的に編集することができる。
このエディターメソッドは、内部表現をより解釈しやすいものにするのに役立つ。
論文 参考訳(メタデータ) (2023-11-17T23:02:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - I Beg to Differ: A study of constructive disagreement in online
conversations [15.581515781839656]
コンテンツ論争を含む7,425のwikipediaトークページ会話のコーパスを構築した。
モデレーターによる調停に不一致がエスカレートされるかどうかを予測するタスクを定義します。
我々は,様々なニューラルモデルを開発し,会話の構造を考慮すれば予測精度が向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T16:36:43Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。