論文の概要: Quality-Weighted Vendi Scores And Their Application To Diverse Experimental Design
- arxiv url: http://arxiv.org/abs/2405.02449v1
- Date: Fri, 3 May 2024 19:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 20:00:04.528480
- Title: Quality-Weighted Vendi Scores And Their Application To Diverse Experimental Design
- Title(参考訳): 品質重み付ベンディスコアとその多変量実験設計への応用
- Authors: Quan Nguyen, Adji Bousso Dieng,
- Abstract要約: 品質を考慮するために、Vendiスコア(解釈可能な類似性に基づく多様性指標のファミリー)を拡張します。
次に、これらの品質重み付けのVendiスコアを活用して、様々なアプリケーションで実験的な設計問題に取り組む。
我々のアルゴリズムは、有効発見数の70%-170%の増加につながった。
- 参考スコア(独自算出の注目度): 7.524476650039884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Experimental design techniques such as active search and Bayesian optimization are widely used in the natural sciences for data collection and discovery. However, existing techniques tend to favor exploitation over exploration of the search space, which causes them to get stuck in local optima. This ``collapse" problem prevents experimental design algorithms from yielding diverse high-quality data. In this paper, we extend the Vendi scores -- a family of interpretable similarity-based diversity metrics -- to account for quality. We then leverage these quality-weighted Vendi scores to tackle experimental design problems across various applications, including drug discovery, materials discovery, and reinforcement learning. We found that quality-weighted Vendi scores allow us to construct policies for experimental design that flexibly balance quality and diversity, and ultimately assemble rich and diverse sets of high-performing data points. Our algorithms led to a 70%-170% increase in the number of effective discoveries compared to baselines.
- Abstract(参考訳): 能動探索やベイズ最適化のような実験的な設計手法は、自然科学においてデータ収集や発見に広く用いられている。
しかし、既存の手法は探索空間の探索よりも搾取を優先する傾向にあり、それによって局所的な最適化に悩まされる。
この「崩壊」問題は、実験的な設計アルゴリズムが様々な高品質なデータを得るのを防ぐ。
本稿では、類似度に基づく多様性指標を解釈可能な家系であるVendiスコアを、品質を考慮して拡張する。
次に、これらの品質重み付けのVendiスコアを活用して、薬物発見、材料発見、強化学習など、さまざまな応用における実験的な設計問題に取り組む。
品質重み付けされたVendiスコアは、フレキシブルな品質と多様性のバランスをとる実験設計のためのポリシーを構築することができ、最終的にはリッチで多様なハイパフォーマンスなデータポイントを組み立てることができます。
提案アルゴリズムは, ベースラインに比べて有効発見数が70%-170%増加した。
関連論文リスト
- Curriculum Learning with Quality-Driven Data Selection [6.045582958441303]
OpenAIのGPT-4は、MLLM(Multimodal Large Language Models)の開発に多大な関心を集めている。
画像とテキストの相関とモデルパープレクシリティを利用して、様々な品質のデータを評価し、選択する新しいデータ選択手法を提案する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2024-06-27T07:20:36Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Domain Knowledge Injection in Bayesian Search for New Materials [0.0]
探索空間における探索を調整するためのドメイン知識に対応するベイズ最適化(BO)アルゴリズムであるDKIBOを提案する。
材料設計タスクにおいて,ドメイン知識をうまく注入することで,提案手法の実用性を実証的に実証する。
論文 参考訳(メタデータ) (2023-11-26T01:55:55Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A quantitative study of NLP approaches to question difficulty estimation [0.30458514384586394]
この研究は、以前の研究で提案されたいくつかのアプローチを定量的に分析し、異なる教育領域のデータセットのパフォーマンスを比較した。
私たちは、Transformerベースのモデルが様々な教育領域で最高のパフォーマンスを示しており、DistilBERTはBERTとほぼ同等に機能していることに気付きました。
他のモデルでは、ハイブリットは単一のタイプの特徴に基づくものよりも優れており、言語的特徴に基づくものは理解された質問を読み取るのに優れ、周波数ベースの特徴(TF-IDF)と単語埋め込み(word2vec)はドメイン知識の評価において優れている。
論文 参考訳(メタデータ) (2023-05-17T14:26:00Z) - Best-Effort Adaptation [62.00856290846247]
本稿では, 試料再重み付け法に関する新しい理論的解析を行い, 試料再重み付け法を一様に保持する境界について述べる。
これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。
本稿では,本アルゴリズムの有効性を実証する一連の実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-10T00:09:07Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Scaling up Search Engine Audits: Practical Insights for Algorithm
Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。
複数のデータ収集にまたがる研究インフラの性能を実証する。
仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文 参考訳(メタデータ) (2021-06-10T15:49:58Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。