論文の概要: Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions?
- arxiv url: http://arxiv.org/abs/2106.01465v1
- Date: Wed, 2 Jun 2021 20:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:28:05.691713
- Title: Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions?
- Title(参考訳): Ethical-Advice Taker: 言語モデルは自然言語の介入を理解するか?
- Authors: Jieyu Zhao, Daniel Khashabi, Tushar Khot, Ashish Sabharwal, and
Kai-Wei Chang
- Abstract要約: 読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
- 参考スコア(独自算出の注目度): 62.74872383104381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is it possible to use natural language to intervene in a model's behavior and
alter its prediction in a desired way? We investigate the effectiveness of
natural language interventions for reading-comprehension systems, studying this
in the context of social stereotypes. Specifically, we propose a new language
understanding task, Linguistic Ethical Interventions (LEI), where the goal is
to amend a question-answering (QA) model's unethical behavior by communicating
context-specific principles of ethics and equity to it. To this end, we build
upon recent methods for quantifying a system's social stereotypes, augmenting
them with different kinds of ethical interventions and the desired model
behavior under such interventions. Our zero-shot evaluation finds that even
today's powerful neural language models are extremely poor ethical-advice
takers, that is, they respond surprisingly little to ethical interventions even
though these interventions are stated as simple sentences. Few-shot learning
improves model behavior but remains far from the desired outcome, especially
when evaluated for various types of generalization. Our new task thus poses a
novel language understanding challenge for the community.
- Abstract(参考訳): 自然言語を使用してモデルの振る舞いに介入し、望ましい方法で予測を変更することは可能か?
読解システムにおける自然言語介入の有効性について検討し,社会ステレオタイプの文脈で検討した。
具体的には,言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。そこでは,倫理と公平の文脈固有の原則を伝達することにより,QAモデルの非倫理的行動を修正することを目的とする。
そこで本研究では, システムの社会的ステレオタイプを定量化し, 異なる倫理的介入や, 望ましいモデル行動によって定量化する手法を提案する。
私たちのゼロショット評価では、今日の強力なニューラルネットワークモデルでさえ、極めて倫理的な対応が不十分であること、つまり、これらの介入が単純な文として述べられているにもかかわらず、驚くほど倫理的な介入に反応しないことが分かりました。
少ないショット学習はモデルの振る舞いを改善するが、特に様々な種類の一般化を評価する場合、望ましい結果には程遠い。
我々の新しい課題は、コミュニティに新しい言語理解の挑戦をもたらす。
関連論文リスト
- Towards "Differential AI Psychology" and in-context Value-driven Statement Alignment with Moral Foundations Theory [0.0]
本研究は,Moral Foundationのアンケートにおいて,パーソナライズされた言語モデルと調査参加者のアライメントについて検討する。
我々は、異なる政治的ペルソナにテキスト・トゥ・テキスト・モデルを適用し、繰り返しアンケートを行い、ペルソナとモデルの組み合わせの合成人口を生成する。
その結果, 適応型モデルでは, 政治的イデオロギーに対する調査をリードする評価が困難であることが示唆された。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models [2.5200794639628032]
本研究は、感情や倫理に関する言語行動をよりよく管理するために、大規模言語モデル(LLM)の高度な方法論を開発する。
我々は,LLMがグローバルな人的価値を内在化し,反映する能力を高めるための,敵対的枠組みであるDIKEを紹介する。
論文 参考訳(メタデータ) (2024-05-11T19:26:00Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Neural Conversation Models and How to Rein Them in: A Survey of Failures
and Fixes [17.489075240435348]
最近の条件付き言語モデルは、しばしば流動的な方法で、あらゆる種類のテキストソースを継続することができる。
言語の観点から言えば、会話への貢献は高い。
最近のアプローチでは、基礎となる言語モデルを様々な介入ポイントでテームしようと試みている。
論文 参考訳(メタデータ) (2023-08-11T12:07:45Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Democratizing Ethical Assessment of Natural Language Generation Models [0.0]
自然言語生成モデル(英: natural language generation model)とは、単語の列を文脈として刺激するとコヒーレントな言語を生成するコンピュータシステムである。
ユビキティと多くの有益な応用にもかかわらず、言語生成モデルは社会に害を与える可能性がある。
したがって、これらのモデルの倫理的評価は重要である。
本稿では,自然言語生成モデルの倫理的評価を民主化し,標準化するための新しいツールを紹介する。
論文 参考訳(メタデータ) (2022-06-30T12:20:31Z) - From Outcome-Based to Language-Based Preferences [13.05235037907183]
本稿では,通常のゲームと金銭的な支払いによって記述された社会的相互作用における人間の行動を説明するモデルに関する文献をレビューする。
我々は,行動が記述される言語,特に道徳的懸念を活性化する言語に人々が反応することを示す,成長する研究機関に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-15T05:11:58Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。