論文の概要: Superalignment with Dynamic Human Values
- arxiv url: http://arxiv.org/abs/2503.13621v1
- Date: Mon, 17 Mar 2025 18:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:35.321988
- Title: Superalignment with Dynamic Human Values
- Title(参考訳): 動的な人的価値を持つスーパーアライメント
- Authors: Florian Mai, David Kaczér, Nicholas Kluge Corrêa, Lucie Flek,
- Abstract要約: アライメントの2つの主要な課題は、1)スケーラブルな監視、2)人間の価値の動的な性質を説明することである。
複雑なタスクをサブタスクに分解するために、人間レベルのガイダンスに相応しいように、超人的推論モデルを訓練する新しいアルゴリズムフレームワークのロードマップをスケッチする。
- 参考スコア(独自算出の注目度): 7.749177319604975
- License:
- Abstract: Two core challenges of alignment are 1) scalable oversight and 2) accounting for the dynamic nature of human values. While solutions like recursive reward modeling address 1), they do not simultaneously account for 2). We sketch a roadmap for a novel algorithmic framework that trains a superhuman reasoning model to decompose complex tasks into subtasks that are still amenable to human-level guidance. Our approach relies on what we call the part-to-complete generalization hypothesis, which states that the alignment of subtask solutions generalizes to the alignment of complete solutions. We advocate for the need to measure this generalization and propose ways to improve it in the future.
- Abstract(参考訳): アライメントの2つの中核的課題
1)スケーラブルな監視と監視
2)人間の価値の動的な性質を説明する。
再帰的報酬モデリング(recursive reward modeling) 1 のような解は、同時に 2 を説明できない。
複雑なタスクをサブタスクに分解するために超人的推論モデルを訓練する新しいアルゴリズムフレームワークのロードマップをスケッチする。
我々のアプローチは、部分対完全一般化仮説と呼ばれるものに依存し、これはサブタスク解のアライメントが完備解のアライメントに一般化することを示している。
我々は、この一般化を測る必要性を提唱し、将来改善する方法を提案する。
関連論文リスト
- Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Bridging the Domain Gap in Satellite Pose Estimation: a Self-Training
Approach based on Geometrical Constraints [44.15764885297801]
ドメインに依存しない幾何学的制約に基づく自己学習フレームワークを提案する。
具体的には、ニューラルネットワークをトレーニングして、衛星の2Dキーポイントを予測する。
実験の結果,本手法は対象領域に順応することがわかった。
論文 参考訳(メタデータ) (2022-12-23T01:47:36Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Neural-Symbolic Solver for Math Word Problems with Auxiliary Tasks [130.70449023574537]
我々のNS-rは、問題を読み取り、問題をエンコードする問題リーダーと、記号方程式を生成するプログラマと、答えを得るシンボリックエグゼキュータから構成される。
また, 目的表現の監督とともに, 4つの新たな補助的目的によって, 異なる記号的推論を強制的に行うように最適化した。
論文 参考訳(メタデータ) (2021-07-03T13:14:58Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - Generalized Inverse Planning: Learning Lifted non-Markovian Utility for
Generalizable Task Representation [83.55414555337154]
本研究では,人間の実演からこのような有用性を学ぶことを研究する。
本稿では,本領域におけるユーティリティ学習のための新しい探索手法である一般化逆計画を提案する。
計算フレームワークである最大エントロピー逆計画(MEIP)について概説し、非マルコフ的効用と関連する概念を生成的に学習する。
論文 参考訳(メタデータ) (2020-11-12T21:06:26Z) - Latent Compositional Representations Improve Systematic Generalization
in Grounded Question Answering [46.87501300706542]
接地された質問応答における最先端のモデルは、しばしば明示的に分解を行わない。
本稿では,全ての質問に対する表現と記述をボトムアップで構成的に計算するモデルを提案する。
私たちのモデルは、エンドツーエンド(回答)のみによって駆動される潜木を誘導します。
論文 参考訳(メタデータ) (2020-07-01T06:22:51Z) - Competitive Mirror Descent [67.31015611281225]
制約のある競合最適化には、制約の対象となる競合する目的を最小化しようとする複数のエージェントが含まれる。
本稿では, 競合ミラー降下法(CMD)を提案する。
特別の場合として、正の円錐上の問題に対する新しい競合乗法重みアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-06-17T22:11:35Z) - Doubly-stochastic mining for heterogeneous retrieval [74.43785301907276]
現代の検索問題は、数十億のラベルを持つトレーニングセットによって特徴づけられる。
ラベルの数が多ければ、単一の例であっても標準的な損失を最適化することは困難である。
両課題に対処するため, 二重確率地雷 (S2M) を提案する。
論文 参考訳(メタデータ) (2020-04-23T00:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。