論文の概要: Three Concrete Challenges and Two Hopes for the Safety of Unsupervised Elicitation
- arxiv url: http://arxiv.org/abs/2602.20400v1
- Date: Mon, 23 Feb 2026 22:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.542085
- Title: Three Concrete Challenges and Two Hopes for the Safety of Unsupervised Elicitation
- Title(参考訳): コンクリートの3つの課題と非監督的省エネの安全を願う2つの課題
- Authors: Callum Canavan, Aditya Shrivastava, Allison Qi, Jonathan Michala, Fabien Roger,
- Abstract要約: 評価に使用されるデータセットは過度に最適化評価結果をもたらす可能性があると我々は主張する。
多くの現実世界のデータセットとは異なり、それらには真実性よりもサリエンスな特徴がないことが多い。
これらの特性を欠いたデータセットを構築し、標準的教師なし推論と容易にハードな一般化手法をストレステストする。
- 参考スコア(独自算出の注目度): 2.5107780917370985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To steer language models towards truthful outputs on tasks which are beyond human capability, previous work has suggested training models on easy tasks to steer them on harder ones (easy-to-hard generalization), or using unsupervised training algorithms to steer models with no external labels at all (unsupervised elicitation). Although techniques from both paradigms have been shown to improve model accuracy on a wide variety of tasks, we argue that the datasets used for these evaluations could cause overoptimistic evaluation results. Unlike many real-world datasets, they often (1) have no features with more salience than truthfulness, (2) have balanced training sets, and (3) contain only data points to which the model can give a well-defined answer. We construct datasets that lack each of these properties to stress-test a range of standard unsupervised elicitation and easy-to-hard generalization techniques. We find that no technique reliably performs well on any of these challenges. We also study ensembling and combining easy-to-hard and unsupervised techniques, and find they only partially mitigate performance degradation due to these challenges. We believe that overcoming these challenges should be a priority for future work on unsupervised elicitation.
- Abstract(参考訳): 言語モデルを人間の能力を超えるタスクで真に出力するために、以前の研究では、より難しいタスク(簡単でハードな一般化)でそれらを操る簡単なタスクのトレーニングモデルを提案したり、教師なしのトレーニングアルゴリズムを使って外部ラベルのないモデルを操ったり(教師なしの誘惑)した。
両パラダイムの手法は多種多様なタスクにおいてモデルの精度を向上させることが示されているが、これらの評価に使用されるデータセットは過度な評価結果をもたらす可能性があると論じている。
多くの実世界のデータセットとは違って、(1)真理性よりもサリエンスな特徴を持たず、(2)バランスの取れたトレーニングセットを持ち、(3)モデルが明確に定義された答えを与えることのできるデータポイントのみを含む。
これらの特性を欠いたデータセットを構築し、標準的教師なし推論と容易にハードな一般化手法をストレステストする。
これらの課題に対して、確実に優れたテクニックが存在しないことが分かりました。
また、難易度と難易度を両立させる手法についても検討し、これらの課題により性能劣化を部分的に軽減するのみであることを示した。
我々は、これらの課題を克服することが、教師なしの勧誘における今後の作業の優先事項であると信じている。
関連論文リスト
- When to retrain a machine learning model [0.0]
現実世界の機械学習モデルを維持する上で重要な課題は、データの継続的かつ予測不可能な進化に対応することだ。
本研究では,境界距離で評価されたモデル性能の進化を連続的に予測して決定する不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2025-05-20T20:55:56Z) - Large (Vision) Language Models are Unsupervised In-Context Learners [14.930827851769276]
完全教師なし適応のための共同推論フレームワークを導入する。
ゼロショット推論とは異なり、関節推論は与えられたタスクの全ての入力に対して同時に予測を行う。
我々の実験は、標準のゼロショットアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-03T07:33:02Z) - Guiding Through Complexity: What Makes Good Supervision for Hard Math Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。
ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。
また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-27T17:55:27Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Robust Monocular Depth Estimation under Challenging Conditions [81.57697198031975]
最先端のモノクル深度推定手法は、難解な照明や気象条件下では信頼性が低い。
我々はmd4allでこれらの安全クリティカルな問題に取り組む: 単純で効果的なソリューションで、悪条件と理想条件の両方で確実に機能する。
論文 参考訳(メタデータ) (2023-08-18T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。