論文の概要: Generalization Analogies: A Testbed for Generalizing AI Oversight to
Hard-To-Measure Domains
- arxiv url: http://arxiv.org/abs/2311.07723v3
- Date: Sun, 17 Dec 2023 21:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:48:21.232754
- Title: Generalization Analogies: A Testbed for Generalizing AI Oversight to
Hard-To-Measure Domains
- Title(参考訳): 一般化アナロジー:aiの監視を測定困難領域に一般化するためのテストベッド
- Authors: Joshua Clymer, Garrett Baker, Rohan Subramani, Sam Wang
- Abstract要約: 報酬モデルは、デフォルトでは命令フォローを評価することを学ばない。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現する。
我々は15の最も困難な分布シフトをジェネラライゼーションアナログIESベンチマークに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more intelligent and their behavior becomes more
challenging to assess, they may learn to game the flaws of human feedback
instead of genuinely striving to follow instructions; however, this risk can be
mitigated by controlling how LLMs generalize human feedback to situations where
it is unreliable. To better understand how reward models generalize, we craft
69 distribution shifts spanning 8 categories. We find that reward models do not
learn to evaluate `instruction-following' by default and instead favor personas
that resemble internet text. Techniques for interpreting reward models'
internal representations achieve better generalization than standard
fine-tuning, but still frequently fail to distinguish instruction-following
from conflated behaviors. We consolidate the 15 most challenging distribution
shifts into the GENeralization analogIES (GENIES) benchmark, which we hope will
enable progress toward controlling reward model generalization.
- Abstract(参考訳): aiシステムがよりインテリジェントになり、その行動がより評価が難しくなるにつれ、彼らは指示に従うのではなく、人間のフィードバックの欠陥を競うことを学ぶことができるが、このリスクは、llmが人間のフィードバックを信頼できない状況に一般化する方法を制御することによって軽減できる。
報酬モデルをいかに一般化するかをよりよく理解するために、私たちは8つのカテゴリにまたがる69の分布シフトを作成します。
報酬モデルでは,「インストラクション・フォロー」の評価をデフォルトでは学ばず,代わりにインターネットテキストに似たペルソナを好んでいる。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現するが、それでもしばしば、複雑な振る舞いと命令追従を区別することができない。
我々は、最も難しい15の分散シフトをジェネラライゼーションアナログIES(GENIES)ベンチマークに統合し、報酬モデル一般化の制御に向けた進歩を期待する。
関連論文リスト
- Doubly Mild Generalization for Offline Reinforcement Learning [50.084440946096]
我々は,データセットを越えた軽度の一般化を信頼し,一定の条件下での性能向上に活用できることを実証した。
本研究では, (i) 軽度行動一般化と (ii) 軽度一般化伝搬からなる二重軽度一般化(DMG)を提案する。
DMGはGym-MuJoCoタスク間の最先端のパフォーマンスを実現し、AntMazeタスクに挑戦する。
論文 参考訳(メタデータ) (2024-11-12T17:04:56Z) - Can Biases in ImageNet Models Explain Generalization? [13.802802975822704]
一般化は、現在のディープラーニング手法における大きな課題の1つです。
画像分類において、これは敵対的攻撃の存在、歪んだ画像のパフォーマンス低下、スケッチのような概念への一般化の欠如に現れている。
我々は,48のイメージネットモデルに対して,これらのバイアスが一般化とどのように相互作用するかを理解するために,異なるトレーニング手法を用いて得られた大規模な研究を行う。
論文 参考訳(メタデータ) (2024-04-01T22:25:48Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models [6.065846799248359]
大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。
しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。
n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
論文 参考訳(メタデータ) (2023-08-16T10:09:42Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Leveraging Expert Guided Adversarial Augmentation For Improving
Generalization in Named Entity Recognition [50.85774164546487]
名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では性能が良くない。
本稿では、専門家誘導型を利用してエンティティトークンとその周辺状況を変更することにより、そのエンティティタイプを敵攻撃として変更することを提案する。
その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。
論文 参考訳(メタデータ) (2022-03-21T01:21:12Z) - Revisiting the Compositional Generalization Abilities of Neural Sequence
Models [23.665350744415004]
一般的なSCANベンチマークで導入されたワンショットプリミティブな一般化に焦点を当てる。
トレーニング分布をシンプルかつ直感的に修正することで、標準的なSeq-to-seqモデルでほぼ完璧な一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2022-03-14T18:03:21Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。