論文の概要: Automated Parliaments: A Solution to Decision Uncertainty and
Misalignment in Language Models
- arxiv url: http://arxiv.org/abs/2311.10098v1
- Date: Tue, 31 Oct 2023 17:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 01:05:27.281266
- Title: Automated Parliaments: A Solution to Decision Uncertainty and
Misalignment in Language Models
- Title(参考訳): 自動議会: 言語モデルにおける不確かさと不一致の解決法
- Authors: Thomas Forster, Jonathan Ouwerx, Shak Ragoler
- Abstract要約: AIモデルが決定の不確実性を克服し、人間の道徳や関心に沿うことを確実にすることが不可欠である。
本研究では,自動議会による言語モデルの意思決定を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As AI takes on a greater role in the modern world, it is essential to ensure
that AI models can overcome decision uncertainty and remain aligned with human
morality and interests. This research paper proposes a method for improving the
decision-making of language models (LMs) via Automated Parliaments (APs) -
constructs made of AI delegates each representing a certain perspective.
Delegates themselves consist of three AI models: generators, modifiers, and
evaluators. We specify two mechanisms for producing optimal solutions: the
Simultaneous Modification mechanism for response creation and an evaluation
mechanism for fairly assessing solutions. The overall process begins when each
generator creates a response aligned with its delegate's theory. The modifiers
alter all other responses to make them more self-aligned. The evaluators
collectively assess the best end response. Finally, the modifiers and
generators learn from feedback from the evaluators. In our research, we tested
the evaluation mechanism, comparing the use of single-value zero-shot prompting
and AP few-shot prompting in evaluating morally contentious scenarios. We found
that the AP architecture saw a 57.3% reduction in its loss value compared to
the baseline. We conclude by discussing some potential applications of APs and
specifically their potential impact when implemented as Automated Moral
Parliaments.
- Abstract(参考訳): 現代の世界でAIがより大きな役割を担っているため、AIモデルは意思決定の不確実性を克服し、人間の道徳や関心と一致し続けることが不可欠である。
本稿では,ai代表者によって構成されたaps(automated parliaments)構造を用いて,言語モデル(lms)の意思決定を改善する手法を提案する。
Delegates自身はジェネレータ、修飾器、評価器という3つのAIモデルで構成されている。
最適解の生成には,応答生成のための同時修正機構と,適度な解評価のための評価機構の2つの機構を規定する。
全体プロセスは、各ジェネレータがそのデリゲート理論に一致した応答を生成するときに始まる。
修飾子は、より自己調整できるように、他のすべての応答を変更します。
評価者はまとめて最高の応答を評価する。
最後に、修飾子とジェネレータは評価子からのフィードバックから学習する。
本研究では,単価ゼロショットプロンプトとap数ショットプロンプトを用いて,道徳的に議論のあるシナリオを評価するための評価機構を検証した。
apアーキテクチャでは、ベースラインと比較して損失値が57.3%減少した。
我々は、APの潜在的な適用の可能性、特に自動道徳議会として実施された影響について論じる。
関連論文リスト
- Using Generative AI and Multi-Agents to Provide Automatic Feedback [4.883570605293337]
本研究では、生成型AIとマルチエージェントシステムを用いて、教育的文脈における自動フィードバックを提供する。
この研究は、AutoFeedbackと呼ばれるマルチエージェントシステムが、GenAI生成したフィードバックの品質をどのように改善するかを探求することによって、この分野における重要なギャップに対処する。
論文 参考訳(メタデータ) (2024-11-11T22:27:36Z) - Beyond Agreement: Diagnosing the Rationale Alignment of Automated Essay Scoring Methods based on Linguistically-informed Counterfactuals [5.565480386188035]
提案手法は,大規模言語モデルによって支援された対実的介入を用いて,BERTのようなモデルが主に文レベルの特徴に焦点を当てていることを明らかにする。
我々のアプローチは、ニューラルネットワークAES手法の理解を改善し、モデル駆動決定における透明性を求める他の領域にも適用できる。
論文 参考訳(メタデータ) (2024-05-29T18:16:32Z) - CFGs: Causality Constrained Counterfactual Explanations using goal-directed ASP [1.5749416770494706]
本稿では,CFG(CounterFactual Generation with s(CASP)を提案する。このフレームワークは,目標指向のAnswer Set Programming(ASP)システムs(CASP)を利用して,デファクトな説明を自動的に生成する。
CFGがこれらの世界、すなわち、望ましくない結果を得る最初の状態から、望まれる決定を得る想像された目標状態へどのようにナビゲートするかを示す。
論文 参考訳(メタデータ) (2024-05-24T21:47:58Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Counterfactual Generation with Answer Set Programming [2.249916681499244]
事実的仮定が変更/変更された世界を想像することで、反事実的説明がどう計算され、正当化されるかを示す。
私たちのフレームワークでは、これらの世界、すなわち、元の世界/scenarioから、望まれないし望ましくない結果が得られる想像の世界/scenarioに、どのようにナビゲートできるかを示します。
論文 参考訳(メタデータ) (2024-02-06T20:39:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluating and Improving Value Judgments in AI: A Scenario-Based Study
on Large Language Models' Depiction of Social Conventions [5.457150493905063]
我々は,現代のAIサービスがユーザニーズにどのように対応しているかを評価し,さらに,大規模言語モデルによって反映された社会の描写を考察した。
本稿では,今後の機械的価値判断に応用可能な,価値調和シナリオにおける意思決定モデルを提案する。
本稿では,他の遠隔地を調査するためのツールとしてAIを利用する実践的アプローチを提唱する。
論文 参考訳(メタデータ) (2023-10-04T08:42:02Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - VCNet: A self-explaining model for realistic counterfactual generation [52.77024349608834]
事実的説明は、機械学習の決定を局所的に説明するための手法のクラスである。
本稿では,予測器と対実生成器を組み合わせたモデルアーキテクチャであるVCNet-Variational Counter Netを提案する。
我々はVCNetが予測を生成でき、また、別の最小化問題を解くことなく、反現実的な説明を生成できることを示した。
論文 参考訳(メタデータ) (2022-12-21T08:45:32Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。