論文の概要: Great Models Think Alike and this Undermines AI Oversight
- arxiv url: http://arxiv.org/abs/2502.04313v1
- Date: Thu, 06 Feb 2025 18:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:32.896130
- Title: Great Models Think Alike and this Undermines AI Oversight
- Title(参考訳): 素晴らしいモデルも同じように考える、AIの監視を弱める
- Authors: Shashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping,
- Abstract要約: モデル類似性がAI監視の両面に与える影響について検討する。
モデル誤りの重複に基づくLM類似性の確率論的尺度を提案する。
我々の研究は、モデル類似性の報告と修正の重要性を強調します。
- 参考スコア(独自算出の注目度): 47.7725284401918
- License:
- Abstract: As Language Model (LM) capabilities advance, evaluating and supervising them at scale is getting harder for humans. There is hope that other language models can automate both these tasks, which we refer to as "AI Oversight". We study how model similarity affects both aspects of AI oversight by proposing a probabilistic metric for LM similarity based on overlap in model mistakes. Using this metric, we first show that LLM-as-a-judge scores favor models similar to the judge, generalizing recent self-preference results. Then, we study training on LM annotations, and find complementary knowledge between the weak supervisor and strong student model plays a crucial role in gains from "weak-to-strong generalization". As model capabilities increase, it becomes harder to find their mistakes, and we might defer more to AI oversight. However, we observe a concerning trend -- model mistakes are becoming more similar with increasing capabilities, pointing to risks from correlated failures. Our work underscores the importance of reporting and correcting for model similarity, especially in the emerging paradigm of AI oversight.
- Abstract(参考訳): 言語モデル(LM)の能力が向上するにつれて、大規模に評価と監視が人間にとって難しくなっています。
他の言語モデルでも,これら2つのタスクを自動化できることを期待しています。
モデル類似度がAI監視の両面にどのように影響するかを,モデル誤りの重なりに基づいて,LM類似度に対する確率的指標を提案する。
この測定値を用いて, LLM-as-a-judgeスコアが審査員と類似したモデルに好適であることを示し, 最近の自己選好結果を一般化した。
そこで,本研究では,LMアノテーションのトレーニングについて検討し,弱い監督者と強い学生モデルとの相補的知識が,「弱々しい一般化」から得られる利益に重要な役割を担っていることを明らかにする。
モデル能力が向上するにつれて、彼らのミスを見つけるのが難しくなり、AIの監視にもっと時間を費やすかもしれません。
しかしながら、関係する傾向を観察する — モデルミスは、相関する失敗からのリスクを指して、能力向上と同じようなものになっています。
我々の研究は、特にAI監視の新たなパラダイムにおいて、モデル類似性の報告と修正の重要性を強調しています。
関連論文リスト
- Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Unveiling AI's Blind Spots: An Oracle for In-Domain, Out-of-Domain, and Adversarial Errors [4.525077884001726]
我々は、他の「メンタ」モデルのエラーを予測するために設計されたディープニューラルネットワークである「メンタ」モデルを用いて、経験的評価を行う。
我々は、ImageNet-1Kデータセットから異なるエラータイプのエラーを予測する上で、ベースラインのメンターよりも優れた、SuperMentorと呼ばれる"オークル"メンターモデルを開発した。
論文 参考訳(メタデータ) (2024-10-03T11:02:39Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - A Review of the Role of Causality in Developing Trustworthy AI Systems [16.267806768096026]
最先端のAIモデルは、現実世界の人間の理解を支配する因果関係の理解がほとんどない。
近年,AIモデルの信頼性を向上するための強力なツールとして因果モデリングや推論手法が登場している。
論文 参考訳(メタデータ) (2023-02-14T11:08:26Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。