論文の概要: Automated Capability Discovery via Model Self-Exploration
- arxiv url: http://arxiv.org/abs/2502.07577v1
- Date: Tue, 11 Feb 2025 14:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:37.915051
- Title: Automated Capability Discovery via Model Self-Exploration
- Title(参考訳): モデル自己探索による自動能力発見
- Authors: Cong Lu, Shengran Hu, Jeff Clune,
- Abstract要約: 本稿では,ACD(Automated Capability Discovery)について紹介する。これは1つの基礎モデルを科学者として指定し,オープンなタスクを提案するフレームワークである。
ACDは、被験者モデルにおける驚くべき能力と失敗の両方を自動的に明らかにします。
さまざまなファンデーションモデルにまたがってACDをデモし、単一のチームで発見が難しい何千もの機能を自動的に明らかにすることを示した。
- 参考スコア(独自算出の注目度): 5.404186221463082
- License:
- Abstract: Foundation models have become general-purpose assistants, exhibiting diverse capabilities across numerous domains through training on web-scale data. It remains challenging to precisely characterize even a fraction of the full spectrum of capabilities and potential risks in any new model. Existing evaluation approaches often require significant human effort, and it is taking increasing effort to design ever harder challenges for more capable models. We introduce Automated Capability Discovery (ACD), a framework that designates one foundation model as a scientist to systematically propose open-ended tasks probing the abilities of a subject model (potentially itself). By combining frontier models with ideas from the field of open-endedness, ACD automatically and systematically uncovers both surprising capabilities and failures in the subject model. We demonstrate ACD across a range of foundation models (including the GPT, Claude, and Llama series), showing that it automatically reveals thousands of capabilities that would be challenging for any single team to uncover. We further validate our method's automated scoring with extensive human surveys, observing high agreement between model-generated and human evaluations. By leveraging foundation models' ability to both create tasks and self-evaluate, ACD is a significant step toward scalable, automated evaluation of novel AI systems. All code and evaluation logs are open-sourced at https://github.com/conglu1997/ACD.
- Abstract(参考訳): ファンデーションモデルは汎用アシスタントとなり、Webスケールデータのトレーニングを通じて、多数のドメインにまたがる多様な機能を示す。
あらゆる新しいモデルにおける能力と潜在的なリスクの全スペクトルのごく一部を正確に特徴づけることは依然として困難である。
既存の評価アプローチは、しばしば人的努力を必要とし、より有能なモデルのためのより難しい課題を設計するために、より多くの努力を払っている。
本稿では,ある基礎モデルを科学者として指定するフレームワークであるAutomated Capability Discovery (ACD)を紹介し,対象モデル(潜在的にはそれ自体)の能力を示すオープンエンドタスクを体系的に提案する。
オープンエンドネスの分野のアイデアとフロンティアモデルを組み合わせることで、ACDは自動的に、そして体系的に、対象モデルの驚くべき能力と失敗の両方を明らかにする。
我々は、様々な基礎モデル(GPT、Claude、Llamaシリーズを含む)でACDをデモし、単一のチームで発見が難しい何千もの機能を自動的に明らかにすることを示した。
さらに, モデル生成と人的評価の高精度な一致を観察し, 広範囲な人的調査による自動採点の有効性を検証した。
タスクの作成と自己評価の両方を行う基礎モデルの能力を活用することで、ACDは、新しいAIシステムのスケーラブルで自動化された評価に向けた重要なステップとなる。
すべてのコードと評価ログはhttps://github.com/conglu 1997/ACDでオープンソース化されている。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - TrainerAgent: Customizable and Efficient Model Training through
LLM-Powered Multi-Agent System [14.019244136838017]
TrainerAgentは、タスク、データ、モデル、サーバーエージェントを含むマルチエージェントフレームワークである。
これらのエージェントは、ユーザ定義のタスク、入力データ、要求(例えば、精度、速度)を分析し、データとモデルの両方の観点からそれらを最適化して満足なモデルを取得し、最終的にこれらのモデルをオンラインサービスとしてデプロイする。
本研究は,従来のモデル開発と比較して,効率と品質が向上した望ましいモデルの実現において,大きな進歩を示すものである。
論文 参考訳(メタデータ) (2023-11-11T17:39:24Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Fusing Models with Complementary Expertise [42.099743709292866]
データ分布の相補的な知識で専門家モデルの出力を融合させるFoE(Fusion of Experts)問題を考える。
我々の方法は差別的タスクと生成的タスクの両方に当てはまる。
テスト時に専門家によるモデル評価の回数を減らすことが望まれる「フルーガル」設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2023-10-02T18:31:35Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。