論文の概要: Universal Feature Selection for Simultaneous Interpretability of Multitask Datasets
- arxiv url: http://arxiv.org/abs/2403.14466v1
- Date: Thu, 21 Mar 2024 15:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:49:29.216845
- Title: Universal Feature Selection for Simultaneous Interpretability of Multitask Datasets
- Title(参考訳): マルチタスクデータセットの同時解釈性のための普遍的特徴選択
- Authors: Matt Raymond, Jacob Charles Saldinger, Paolo Elvati, Clayton Scott, Angela Violi,
- Abstract要約: BoUTSはクロスドメインな特徴選択の大きな飛躍であり、様々な科学分野の進歩に繋がる可能性がある。
BoUTSの普遍的な機能は、データセット間のドメイン固有の知識伝達を可能にし、一見異なる化学データセットにおける深い接続を提案する。
BoUTSは、同様のデータ豊富なシステムからの情報を活用することで、データポーアシステムの解明に大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 9.68183298490196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting meaningful features from complex, high-dimensional datasets across scientific domains remains challenging. Current methods often struggle with scalability, limiting their applicability to large datasets, or make restrictive assumptions about feature-property relationships, hindering their ability to capture complex interactions. BoUTS's general and scalable feature selection algorithm surpasses these limitations to identify both universal features relevant to all datasets and task-specific features predictive for specific subsets. Evaluated on seven diverse chemical regression datasets, BoUTS achieves state-of-the-art feature sparsity while maintaining prediction accuracy comparable to specialized methods. Notably, BoUTS's universal features enable domain-specific knowledge transfer between datasets, and suggest deep connections in seemingly-disparate chemical datasets. We expect these results to have important repercussions in manually-guided inverse problems. Beyond its current application, BoUTS holds immense potential for elucidating data-poor systems by leveraging information from similar data-rich systems. BoUTS represents a significant leap in cross-domain feature selection, potentially leading to advancements in various scientific fields.
- Abstract(参考訳): 科学的領域にまたがる複雑な高次元データセットから有意義な特徴を抽出することは依然として困難である。
現在のメソッドはスケーラビリティに苦しむことが多く、大きなデータセットに適用性を制限するか、機能とプロパティの関係を限定的に仮定することで、複雑なインタラクションをキャプチャする能力を妨げている。
BoUTSの汎用的かつスケーラブルな特徴選択アルゴリズムは、これらの制限を超え、すべてのデータセットに関連する普遍的な特徴と、特定のサブセットに対して予測されるタスク固有の特徴の両方を識別する。
7つの多様な化学回帰データセットに基づいて評価され、BoUTSは専門的な手法に匹敵する予測精度を維持しながら、最先端の特徴空間を達成する。
特に、BoUTSの普遍的な機能は、データセット間のドメイン固有の知識伝達を可能にし、一見異なる化学データセットにおける深い接続を提案する。
これらの結果は,手動誘導逆問題における重要な影響を期待する。
現在のアプリケーション以外にも、BoUTSは、同様のデータ豊富なシステムからの情報を活用することで、データポーアシステムを解明する大きな可能性を秘めている。
BoUTSはクロスドメインな特徴選択の大きな飛躍であり、様々な科学分野の進歩に繋がる可能性がある。
関連論文リスト
- Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。
INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。
この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文 参考訳(メタデータ) (2024-11-06T06:14:24Z) - Emerging-properties Mapping Using Spatial Embedding Statistics: EMUSES [0.0]
EMUSESは、データ内の潜伏構造を明らかにする高次元埋め込みを作成する革新的なアプローチである。
予測精度と解釈可能性のギャップを埋めることで、EMUSESは複雑な現象の多因子的起源を理解する強力なツールを提供する。
論文 参考訳(メタデータ) (2024-06-20T13:39:14Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Attribute-based Explanations of Non-Linear Embeddings of
High-Dimensional Data [2.397739143553337]
NoLiES(Non-linear Embeddings Surveyor)は、投影されたデータ(レンジセット)に対する新しい拡張戦略と、小さな多重環境でのインタラクティブな分析を組み合わせたものである。
Rangesetsはバイナリ属性値に対して,セットベースの視覚化アプローチを使用する。
論文 参考訳(メタデータ) (2021-07-28T12:09:29Z) - A User-Guided Bayesian Framework for Ensemble Feature Selection in Life
Science Applications (UBayFS) [0.0]
本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。
提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。
標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。
論文 参考訳(メタデータ) (2021-04-30T06:51:33Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z) - On the Use of Interpretable Machine Learning for the Management of Data
Quality [13.075880857448059]
我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
論文 参考訳(メタデータ) (2020-07-29T08:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。