論文の概要: Automated Parliaments: A Solution to Decision Uncertainty and
Misalignment in Language Models
- arxiv url: http://arxiv.org/abs/2311.10098v1
- Date: Tue, 31 Oct 2023 17:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 01:05:27.281266
- Title: Automated Parliaments: A Solution to Decision Uncertainty and
Misalignment in Language Models
- Title(参考訳): 自動議会: 言語モデルにおける不確かさと不一致の解決法
- Authors: Thomas Forster, Jonathan Ouwerx, Shak Ragoler
- Abstract要約: AIモデルが決定の不確実性を克服し、人間の道徳や関心に沿うことを確実にすることが不可欠である。
本研究では,自動議会による言語モデルの意思決定を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As AI takes on a greater role in the modern world, it is essential to ensure
that AI models can overcome decision uncertainty and remain aligned with human
morality and interests. This research paper proposes a method for improving the
decision-making of language models (LMs) via Automated Parliaments (APs) -
constructs made of AI delegates each representing a certain perspective.
Delegates themselves consist of three AI models: generators, modifiers, and
evaluators. We specify two mechanisms for producing optimal solutions: the
Simultaneous Modification mechanism for response creation and an evaluation
mechanism for fairly assessing solutions. The overall process begins when each
generator creates a response aligned with its delegate's theory. The modifiers
alter all other responses to make them more self-aligned. The evaluators
collectively assess the best end response. Finally, the modifiers and
generators learn from feedback from the evaluators. In our research, we tested
the evaluation mechanism, comparing the use of single-value zero-shot prompting
and AP few-shot prompting in evaluating morally contentious scenarios. We found
that the AP architecture saw a 57.3% reduction in its loss value compared to
the baseline. We conclude by discussing some potential applications of APs and
specifically their potential impact when implemented as Automated Moral
Parliaments.
- Abstract(参考訳): 現代の世界でAIがより大きな役割を担っているため、AIモデルは意思決定の不確実性を克服し、人間の道徳や関心と一致し続けることが不可欠である。
本稿では,ai代表者によって構成されたaps(automated parliaments)構造を用いて,言語モデル(lms)の意思決定を改善する手法を提案する。
Delegates自身はジェネレータ、修飾器、評価器という3つのAIモデルで構成されている。
最適解の生成には,応答生成のための同時修正機構と,適度な解評価のための評価機構の2つの機構を規定する。
全体プロセスは、各ジェネレータがそのデリゲート理論に一致した応答を生成するときに始まる。
修飾子は、より自己調整できるように、他のすべての応答を変更します。
評価者はまとめて最高の応答を評価する。
最後に、修飾子とジェネレータは評価子からのフィードバックから学習する。
本研究では,単価ゼロショットプロンプトとap数ショットプロンプトを用いて,道徳的に議論のあるシナリオを評価するための評価機構を検証した。
apアーキテクチャでは、ベースラインと比較して損失値が57.3%減少した。
我々は、APの潜在的な適用の可能性、特に自動道徳議会として実施された影響について論じる。
関連論文リスト
- Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models [28.53750311045418]
言語モデルを用いて因果グラフを変換し、道徳的ジレンマの重要な側面をプロンプトテンプレートに変換する。
項目のサブセットとして、人間の参加者から道徳的許容性と意図的な判断を収集する。
モラルジレンマ(モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ)は、
論文 参考訳(メタデータ) (2024-04-17T01:13:04Z) - Counterfactual Generation with Answer Set Programming [2.249916681499244]
事実的仮定が変更/変更された世界を想像することで、反事実的説明がどう計算され、正当化されるかを示す。
私たちのフレームワークでは、これらの世界、すなわち、元の世界/scenarioから、望まれないし望ましくない結果が得られる想像の世界/scenarioに、どのようにナビゲートできるかを示します。
論文 参考訳(メタデータ) (2024-02-06T20:39:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluating and Improving Value Judgments in AI: A Scenario-Based Study
on Large Language Models' Depiction of Social Conventions [5.457150493905063]
我々は,現代のAIサービスがユーザニーズにどのように対応しているかを評価し,さらに,大規模言語モデルによって反映された社会の描写を考察した。
本稿では,今後の機械的価値判断に応用可能な,価値調和シナリオにおける意思決定モデルを提案する。
本稿では,他の遠隔地を調査するためのツールとしてAIを利用する実践的アプローチを提唱する。
論文 参考訳(メタデータ) (2023-10-04T08:42:02Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - VCNet: A self-explaining model for realistic counterfactual generation [52.77024349608834]
事実的説明は、機械学習の決定を局所的に説明するための手法のクラスである。
本稿では,予測器と対実生成器を組み合わせたモデルアーキテクチャであるVCNet-Variational Counter Netを提案する。
我々はVCNetが予測を生成でき、また、別の最小化問題を解くことなく、反現実的な説明を生成できることを示した。
論文 参考訳(メタデータ) (2022-12-21T08:45:32Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Designing Precise and Robust Dialogue Response Evaluators [35.137244385158034]
我々は,参照自由評価器を構築し,半教師付きトレーニングと事前訓練言語モデルのパワーを活用することを提案する。
実験結果から,提案した評価器は人的判断と強い相関(>0.6)を達成できることが示された。
論文 参考訳(メタデータ) (2020-04-10T04:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。