論文の概要: Generalization Analogies: A Testbed for Generalizing AI Oversight to
Hard-To-Measure Domains
- arxiv url: http://arxiv.org/abs/2311.07723v3
- Date: Sun, 17 Dec 2023 21:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:48:21.232754
- Title: Generalization Analogies: A Testbed for Generalizing AI Oversight to
Hard-To-Measure Domains
- Title(参考訳): 一般化アナロジー:aiの監視を測定困難領域に一般化するためのテストベッド
- Authors: Joshua Clymer, Garrett Baker, Rohan Subramani, Sam Wang
- Abstract要約: 報酬モデルは、デフォルトでは命令フォローを評価することを学ばない。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現する。
我々は15の最も困難な分布シフトをジェネラライゼーションアナログIESベンチマークに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more intelligent and their behavior becomes more
challenging to assess, they may learn to game the flaws of human feedback
instead of genuinely striving to follow instructions; however, this risk can be
mitigated by controlling how LLMs generalize human feedback to situations where
it is unreliable. To better understand how reward models generalize, we craft
69 distribution shifts spanning 8 categories. We find that reward models do not
learn to evaluate `instruction-following' by default and instead favor personas
that resemble internet text. Techniques for interpreting reward models'
internal representations achieve better generalization than standard
fine-tuning, but still frequently fail to distinguish instruction-following
from conflated behaviors. We consolidate the 15 most challenging distribution
shifts into the GENeralization analogIES (GENIES) benchmark, which we hope will
enable progress toward controlling reward model generalization.
- Abstract(参考訳): aiシステムがよりインテリジェントになり、その行動がより評価が難しくなるにつれ、彼らは指示に従うのではなく、人間のフィードバックの欠陥を競うことを学ぶことができるが、このリスクは、llmが人間のフィードバックを信頼できない状況に一般化する方法を制御することによって軽減できる。
報酬モデルをいかに一般化するかをよりよく理解するために、私たちは8つのカテゴリにまたがる69の分布シフトを作成します。
報酬モデルでは,「インストラクション・フォロー」の評価をデフォルトでは学ばず,代わりにインターネットテキストに似たペルソナを好んでいる。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現するが、それでもしばしば、複雑な振る舞いと命令追従を区別することができない。
我々は、最も難しい15の分散シフトをジェネラライゼーションアナログIES(GENIES)ベンチマークに統合し、報酬モデル一般化の制御に向けた進歩を期待する。
関連論文リスト
- Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD
Generalization for Generative Transformer Models [6.626501860715937]
生成トランスフォーマーベースのモデルは、多様な問題を解決するための卓越した熟練性を実現している。
しかし、それらの一般化能力は必ずしも完全には理解されておらず、必ずしも満足していない。
論文 参考訳(メタデータ) (2023-08-16T10:09:42Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Leveraging Expert Guided Adversarial Augmentation For Improving
Generalization in Named Entity Recognition [50.85774164546487]
名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では性能が良くない。
本稿では、専門家誘導型を利用してエンティティトークンとその周辺状況を変更することにより、そのエンティティタイプを敵攻撃として変更することを提案する。
その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。
論文 参考訳(メタデータ) (2022-03-21T01:21:12Z) - Revisiting the Compositional Generalization Abilities of Neural Sequence
Models [23.665350744415004]
一般的なSCANベンチマークで導入されたワンショットプリミティブな一般化に焦点を当てる。
トレーニング分布をシンプルかつ直感的に修正することで、標準的なSeq-to-seqモデルでほぼ完璧な一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2022-03-14T18:03:21Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Learning to Learn Single Domain Generalization [18.72451358284104]
本稿では,このアウト・オブ・ディストリビューション(OOD)一般化問題を解くために,逆領域拡張という新しい手法を提案する。
鍵となる考え方は、敵の訓練を活用して「現実的」だが「混み合う」人口を作り出すことである。
高速で望ましいドメイン拡張を容易にするため、メタラーニング方式でモデルトレーニングを行い、Wasserstein Auto-Encoder (WAE) を用いて、広く使われている最悪のケース制約を緩和する。
論文 参考訳(メタデータ) (2020-03-30T04:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。