論文の概要: ML-driven detection and reduction of ballast information in multi-modal datasets
- arxiv url: http://arxiv.org/abs/2602.16876v1
- Date: Wed, 18 Feb 2026 21:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.406758
- Title: ML-driven detection and reduction of ballast information in multi-modal datasets
- Title(参考訳): マルチモーダルデータセットにおけるML駆動によるバラスト情報の検出と低減
- Authors: Yaroslav Solovko,
- Abstract要約: Ballastは冗長あるいは低ユーティリティな情報であり、次元性、ストレージ要件、計算コストを増大させる。
本研究では,構造化,半構造化,非構造化,スパースデータ型にまたがるバラスト検出と低減のための一般化されたマルチモーダルフレームワークを提案する。
バラストスコア(Ballast Score)は、これらの信号を統一されたクロスモーダルプルーニング戦略に統合するために提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern datasets often contain ballast as redundant or low-utility information that increases dimensionality, storage requirements, and computational cost without contributing meaningful analytical value. This study introduces a generalized, multimodal framework for ballast detection and reduction across structured, semi-structured, unstructured, and sparse data types. Using diverse datasets, entropy, mutual information, Lasso, SHAP, PCA, topic modelling, and embedding analysis are applied to identify and eliminate ballast features. A novel Ballast Score is proposed to integrate these signals into a unified, cross-modal pruning strategy. Experimental results demonstrate that significant portions of the feature space as often exceeding 70% in sparse or semi-structured data, can be pruned with minimal or even improved classification performance, along with substantial reductions in training time and memory footprint. The framework reveals distinct ballast typologies (e.g. statistical, semantic, infrastructural), and offers practical guidance for leaner, more efficient machine learning pipelines.
- Abstract(参考訳): 現代のデータセットは、しばしば冗長または低ユーティリティな情報としてバラストを含み、意味のある分析値に寄与することなく、次元性、ストレージ要件、計算コストを増大させる。
本研究では,構造化,半構造化,非構造化,スパースデータ型にまたがるバラスト検出と低減のための一般化されたマルチモーダルフレームワークを提案する。
多様なデータセット、エントロピー、相互情報、ラッソ、SHAP、PCA、トピックモデリング、埋め込み分析を用いてバラストの特徴を特定し、排除する。
バラストスコア(Ballast Score)は、これらの信号を統一されたクロスモーダルプルーニング戦略に統合するために提案されている。
実験結果から,スパースデータや半構造化データの70%を超える頻度で特徴空間のかなりの部分が,トレーニング時間やメモリフットプリントの大幅な削減とともに,最小あるいは改良された分類性能で刈り取られることが明らかとなった。
このフレームワークは、異なるバラスト型(統計、意味、インフラなど)を明らかにし、よりリーンでより効率的な機械学習パイプラインのための実践的なガイダンスを提供する。
関連論文リスト
- Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - TabINR: An Implicit Neural Representation Framework for Tabular Data Imputation [0.6407815281667869]
本稿では,テーブルをニューラルネットワークとしてモデル化する自動デコーダベースのImplicit Neural RepresentationフレームワークであるTabINRを紹介する。
我々は、現実世界の12のデータセットと複数の欠落メカニズムにまたがって、我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2025-10-01T17:24:35Z) - Efficient Quantification of Multimodal Interaction at Sample Level [12.373485315058513]
本稿では,軽量サンプル・ワイド・マルチモーダル・インタラクション (LSMI) 推定器について紹介する。
我々はまず、この最も分解可能な相互作用を定量化するために、適切なポイントワイズ情報尺度を用いて冗長性推定フレームワークを開発する。
そこで本研究では,効率的なエントロピー推定手法を提案する。
論文 参考訳(メタデータ) (2025-06-08T02:39:25Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。