論文の概要: Contextual Moral Value Alignment Through Context-Based Aggregation
- arxiv url: http://arxiv.org/abs/2403.12805v1
- Date: Tue, 19 Mar 2024 15:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:44:06.804925
- Title: Contextual Moral Value Alignment Through Context-Based Aggregation
- Title(参考訳): 文脈ベースアグリゲーションによる文脈的モラル値アライメント
- Authors: Pierre Dognin, Jesus Rios, Ronny Luss, Inkit Padhi, Matthew D Riemer, Miao Liu, Prasanna Sattigeri, Manish Nagireddy, Kush R. Varshney, Djallel Bouneffouf,
- Abstract要約: 文脈アグリゲーションに基づく文脈的道徳的価値アライメントを行うシステムを提案する。
提案システムでは, 技術状況と比較して, 人的価値との整合性に優れた結果が得られた。
- 参考スコア(独自算出の注目度): 34.23730699280263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing value-aligned AI agents is a complex undertaking and an ongoing challenge in the field of AI. Specifically within the domain of Large Language Models (LLMs), the capability to consolidate multiple independently trained dialogue agents, each aligned with a distinct moral value, into a unified system that can adapt to and be aligned with multiple moral values is of paramount importance. In this paper, we propose a system that does contextual moral value alignment based on contextual aggregation. Here, aggregation is defined as the process of integrating a subset of LLM responses that are best suited to respond to a user input, taking into account features extracted from the user's input. The proposed system shows better results in term of alignment to human value compared to the state of the art.
- Abstract(参考訳): バリューアライメントなAIエージェントの開発は、AI分野における複雑な取り組みであり、進行中の課題である。
特に、Large Language Models (LLMs)の領域内では、複数の独立的に訓練された対話エージェントを個別の道徳的価値と整合させる能力が、複数の道徳的価値に適応し、整合できる統一システムに最重要となる。
本稿では,文脈アグリゲーションに基づく文脈的道徳的価値アライメントを行うシステムを提案する。
ここでは、アグリゲーションは、ユーザの入力から抽出された特徴を考慮した、ユーザの入力に最も適したLDM応答のサブセットを統合するプロセスとして定義される。
提案システムでは, 最先端技術と比較して, 人的価値との整合性に優れた結果が得られた。
関連論文リスト
- Structured Information Matters: Incorporating Abstract Meaning Representation into LLMs for Improved Open-Domain Dialogue Evaluation [23.203761925540736]
ドメイン固有言語モデル(SLM)と大規模言語モデル(LLM)を用いたオープンドメイン対話評価フレームワークを提案する。
SLMは、拡張意味表現学習のためのゲーティング機構を通じて、対話の抽象的意味表現グラフ情報を明示的に組み込むことができる。
オープンドメイン対話評価タスクの実験結果から,提案手法の優位性を示した。
論文 参考訳(メタデータ) (2024-04-01T14:11:45Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Evaluating Open-Domain Dialogues in Latent Space with Next Sentence
Prediction and Mutual Information [18.859159491548006]
オープンドメイン対話のための新しい学習ベース自動評価指標(CMN)を提案する。
条件付き変分オートエンコーダ(CVAE)をNext Sentence Prediction(NSP)の対象とし,相互情報(MI)を用いて潜在空間におけるテキストの意味的類似性をモデル化する。
2つのオープンドメイン対話データセットの実験結果は、幅広いベースラインと比較して、我々の手法の優位性を示している。
論文 参考訳(メタデータ) (2023-05-26T14:21:54Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Human Values in Multiagent Systems [3.5027291542274357]
本稿では,社会科学における価値の形式的表現について述べる。
我々は,この形式的表現を用いて,マルチエージェントシステムにおける価値整合性を実現する上で重要な課題を明確化する。
論文 参考訳(メタデータ) (2023-05-04T11:23:59Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。