論文の概要: Contextual Moral Value Alignment Through Context-Based Aggregation
- arxiv url: http://arxiv.org/abs/2403.12805v1
- Date: Tue, 19 Mar 2024 15:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:44:06.804925
- Title: Contextual Moral Value Alignment Through Context-Based Aggregation
- Title(参考訳): 文脈ベースアグリゲーションによる文脈的モラル値アライメント
- Authors: Pierre Dognin, Jesus Rios, Ronny Luss, Inkit Padhi, Matthew D Riemer, Miao Liu, Prasanna Sattigeri, Manish Nagireddy, Kush R. Varshney, Djallel Bouneffouf,
- Abstract要約: 文脈アグリゲーションに基づく文脈的道徳的価値アライメントを行うシステムを提案する。
提案システムでは, 技術状況と比較して, 人的価値との整合性に優れた結果が得られた。
- 参考スコア(独自算出の注目度): 34.23730699280263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing value-aligned AI agents is a complex undertaking and an ongoing challenge in the field of AI. Specifically within the domain of Large Language Models (LLMs), the capability to consolidate multiple independently trained dialogue agents, each aligned with a distinct moral value, into a unified system that can adapt to and be aligned with multiple moral values is of paramount importance. In this paper, we propose a system that does contextual moral value alignment based on contextual aggregation. Here, aggregation is defined as the process of integrating a subset of LLM responses that are best suited to respond to a user input, taking into account features extracted from the user's input. The proposed system shows better results in term of alignment to human value compared to the state of the art.
- Abstract(参考訳): バリューアライメントなAIエージェントの開発は、AI分野における複雑な取り組みであり、進行中の課題である。
特に、Large Language Models (LLMs)の領域内では、複数の独立的に訓練された対話エージェントを個別の道徳的価値と整合させる能力が、複数の道徳的価値に適応し、整合できる統一システムに最重要となる。
本稿では,文脈アグリゲーションに基づく文脈的道徳的価値アライメントを行うシステムを提案する。
ここでは、アグリゲーションは、ユーザの入力から抽出された特徴を考慮した、ユーザの入力に最も適したLDM応答のサブセットを統合するプロセスとして定義される。
提案システムでは, 最先端技術と比較して, 人的価値との整合性に優れた結果が得られた。
関連論文リスト
- Democratizing Reward Design for Personal and Representative Value-Alignment [10.1630183955549]
本稿では,対話型対話アライメント(Interactive-Reflective Dialogue Alignment)について紹介する。
本システムは,言語モデルに基づく嗜好誘導を通じて個々の価値定義を学習し,パーソナライズされた報酬モデルを構築する。
本研究は, 価値整合行動の多様な定義を示し, システムによって各人の独自の理解を正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:37:01Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation [0.0]
TokenSHAPは、大規模言語モデルを解釈する新しい方法である。
これは、協調ゲーム理論から自然言語処理へのシェープリー値の適応である。
トークンの重要性を解釈可能で定量的に測定する。
論文 参考訳(メタデータ) (2024-07-14T08:07:50Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation [26.330012489735456]
本稿では,オープンドメイン対話評価のための効果的なフレームワークを提案する。
抽象的意味表現(AMR)知識と拡張されたドメイン固有言語モデル(SLM)と大規模言語モデル(LLM)を組み合わせる。
オープンドメイン対話評価タスクの実験結果から,提案手法の優位性を示した。
論文 参考訳(メタデータ) (2024-04-01T14:11:45Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。