Fugu-MT 論文翻訳(概要): Generalization Analogies: A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains

論文の概要: Generalization Analogies: A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains

arxiv url: http://arxiv.org/abs/2311.07723v3
Date: Sun, 17 Dec 2023 21:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:48:21.232754
Title: Generalization Analogies: A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains
Title（参考訳）: 一般化アナロジー:aiの監視を測定困難領域に一般化するためのテストベッド
Authors: Joshua Clymer, Garrett Baker, Rohan Subramani, Sam Wang
Abstract要約: 報酬モデルは、デフォルトでは命令フォローを評価することを学ばない。報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現する。我々は15の最も困難な分布シフトをジェネラライゼーションアナログIESベンチマークに統合する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI systems become more intelligent and their behavior becomes more challenging to assess, they may learn to game the flaws of human feedback instead of genuinely striving to follow instructions; however, this risk can be mitigated by controlling how LLMs generalize human feedback to situations where it is unreliable. To better understand how reward models generalize, we craft 69 distribution shifts spanning 8 categories. We find that reward models do not learn to evaluate `instruction-following' by default and instead favor personas that resemble internet text. Techniques for interpreting reward models' internal representations achieve better generalization than standard fine-tuning, but still frequently fail to distinguish instruction-following from conflated behaviors. We consolidate the 15 most challenging distribution shifts into the GENeralization analogIES (GENIES) benchmark, which we hope will enable progress toward controlling reward model generalization.
Abstract（参考訳）: aiシステムがよりインテリジェントになり、その行動がより評価が難しくなるにつれ、彼らは指示に従うのではなく、人間のフィードバックの欠陥を競うことを学ぶことができるが、このリスクは、llmが人間のフィードバックを信頼できない状況に一般化する方法を制御することによって軽減できる。報酬モデルをいかに一般化するかをよりよく理解するために、私たちは8つのカテゴリにまたがる69の分布シフトを作成します。報酬モデルでは,「インストラクション・フォロー」の評価をデフォルトでは学ばず,代わりにインターネットテキストに似たペルソナを好んでいる。報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現するが、それでもしばしば、複雑な振る舞いと命令追従を区別することができない。我々は、最も難しい15の分散シフトをジェネラライゼーションアナログIES(GENIES)ベンチマークに統合し、報酬モデル一般化の制御に向けた進歩を期待する。

関連論文リスト

When Shift Happens - Confounding Is to Blame [21.028845817427825]
経験的リスク最小化は、最先端のアウト・オブ・ディストリビューションの一般化手法に匹敵する、あるいは超越する可能性があることを示す。我々はこの現象を隠された共起によるものとみなす。私たちは、隠れた共同創設者のためのプロキシで強化されたモデルが、隠れた共同設立のシフトによって引き起こされる課題を緩和できることを示します。
論文参考訳（メタデータ） (2025-05-27T16:50:44Z)
Great Models Think Alike and this Undermines AI Oversight [47.7725284401918]
モデル類似性がAI監視の両面に与える影響について検討する。モデル誤りの重複に基づくLM類似性の確率論的尺度を提案する。我々の研究は、モデル類似性の報告と修正の重要性を強調します。
論文参考訳（メタデータ） (2025-02-06T18:56:01Z)
Doubly Mild Generalization for Offline Reinforcement Learning [50.084440946096]
我々は,データセットを越えた軽度の一般化を信頼し,一定の条件下での性能向上に活用できることを実証した。本研究では, (i) 軽度行動一般化と (ii) 軽度一般化伝搬からなる二重軽度一般化(DMG)を提案する。 DMGはGym-MuJoCoタスク間の最先端のパフォーマンスを実現し、AntMazeタスクに挑戦する。
論文参考訳（メタデータ） (2024-11-12T17:04:56Z)
Can Biases in ImageNet Models Explain Generalization? [13.802802975822704]
一般化は、現在のディープラーニング手法における大きな課題の1つです。画像分類において、これは敵対的攻撃の存在、歪んだ画像のパフォーマンス低下、スケッチのような概念への一般化の欠如に現れている。我々は,48のイメージネットモデルに対して,これらのバイアスが一般化とどのように相互作用するかを理解するために,異なるトレーニング手法を用いて得られた大規模な研究を行う。
論文参考訳（メタデータ） (2024-04-01T22:25:48Z)
Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文参考訳（メタデータ） (2024-03-14T15:12:38Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models [6.065846799248359]
大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。 n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
論文参考訳（メタデータ） (2023-08-16T10:09:42Z)
When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文参考訳（メタデータ） (2022-12-01T20:15:15Z)
Leveraging Expert Guided Adversarial Augmentation For Improving Generalization in Named Entity Recognition [50.85774164546487]
名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では性能が良くない。本稿では、専門家誘導型を利用してエンティティトークンとその周辺状況を変更することにより、そのエンティティタイプを敵攻撃として変更することを提案する。その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。
論文参考訳（メタデータ） (2022-03-21T01:21:12Z)
Revisiting the Compositional Generalization Abilities of Neural Sequence Models [23.665350744415004]
一般的なSCANベンチマークで導入されたワンショットプリミティブな一般化に焦点を当てる。トレーニング分布をシンプルかつ直感的に修正することで、標準的なSeq-to-seqモデルでほぼ完璧な一般化性能が得られることを示す。
論文参考訳（メタデータ） (2022-03-14T18:03:21Z)
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文参考訳（メタデータ） (2021-05-12T12:12:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。