論文の概要: Scalable Oversight for Superhuman AI via Recursive Self-Critiquing
- arxiv url: http://arxiv.org/abs/2502.04675v1
- Date: Fri, 07 Feb 2025 05:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:45.676383
- Title: Scalable Oversight for Superhuman AI via Recursive Self-Critiquing
- Title(参考訳): Recursive Self-Critiquingによる超人的AIのスケーラビリティの監視
- Authors: Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang, XingYu,
- Abstract要約: 批判そのものよりも批判の方が容易であることを示す。
また, 直接評価が不可能な場合, 高次評価を行うことにより, よりトラクタブルな監視経路が提供されることも示唆した。
- 参考スコア(独自算出の注目度): 19.128811239757244
- License:
- Abstract: As AI capabilities increasingly surpass human proficiency in complex tasks, current alignment techniques including SFT and RLHF face fundamental challenges in ensuring reliable oversight. These methods rely on direct human assessment and become untenable when AI outputs exceed human cognitive thresholds. In response to this challenge, we explore two hypotheses: (1) critique of critique can be easier than critique itself, extending the widely-accepted observation that verification is easier than generation to the critique domain, as critique itself is a specialized form of generation; (2) this difficulty relationship is recursively held, suggesting that when direct evaluation is infeasible, performing high-order critiques (e.g., critique of critique of critique) offers a more tractable supervision pathway. To examine these hypotheses, we perform Human-Human, Human-AI, and AI-AI experiments across multiple tasks. Our results demonstrate encouraging evidence supporting these hypotheses and suggest that recursive self-critiquing is a promising direction for scalable oversight.
- Abstract(参考訳): AIの能力が複雑なタスクにおける人間の熟練度をますます上回るにつれて、SFTやRLHFといった現在のアライメント技術は、信頼性の高い監視を保証するための根本的な課題に直面している。
これらの手法は人間の直接評価に依存しており、AI出力が人間の認知閾値を超えると不可能になる。
この課題に対して,(1)批判の批判は批評よりも容易であり,(2)批判自体が特別な生成形態であるとして,検証が批判領域に容易に適用できるという広く受け入れられた観察を拡張し,(2)直接的な評価が不可能な場合には,高次の批判(例えば,批判の批判)を行うことにより,より魅力的な監視経路が提供されることを示唆する。
これらの仮説を検証するために、複数のタスクにわたるヒューマン・ヒューマン、ヒューマン・AI、AI-AI実験を行う。
本研究は,これらの仮説を裏付けるエビデンスを実証し,再帰的自己評価がスケーラブルな監視のための有望な方向であることを示唆するものである。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Problem Solving Through Human-AI Preference-Based Cooperation [74.39233146428492]
我々は,人間-AI共同構築フレームワークであるHAI-Co2を提案する。
我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。
本稿では,HAI-Co2のケーススタディと,モノリシックな生成型AIモデルとの比較による有効性を示す。
論文 参考訳(メタデータ) (2024-08-14T11:06:57Z) - AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations [0.2106667480549292]
我々は、誠実さ、無害さ、役に立つという、広く追求されたアライメント目標の欠点を示す。
我々はRLxFの目標に固有の緊張と矛盾を強調する。
我々は、RLxFの社会技術的影響を批判的に評価するよう研究者や実践者に促すことで結論付ける。
論文 参考訳(メタデータ) (2024-06-26T13:42:13Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Measuring Progress on Scalable Oversight for Large Language Models [19.705153174673576]
我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-04T17:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。