論文の概要: Latent Feature Mining for Predictive Model Enhancement with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04347v1
- Date: Sun, 06 Oct 2024 03:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:31.464740
- Title: Latent Feature Mining for Predictive Model Enhancement with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた予測モデル拡張のための潜在的特徴マイニング
- Authors: Bingxuan Li, Pengyi Shi, Amy Ward,
- Abstract要約: 本稿では,テキストからテキストへの命題論理的推論として潜在特徴抽出を定式化するための効果的なアプローチを提案する。
本稿では,大規模言語モデル (LLM) を利用した潜在機能付き観測機能拡張フレームワークであるFLAMEを提案する。
この枠組みを刑事司法制度と医療領域の2つのケーススタディで検証する。
- 参考スコア(独自算出の注目度): 2.6334346517416876
- License:
- Abstract: Predictive modeling often faces challenges due to limited data availability and quality, especially in domains where collected features are weakly correlated with outcomes and where additional feature collection is constrained by ethical or practical difficulties. Traditional machine learning (ML) models struggle to incorporate unobserved yet critical factors. In this work, we introduce an effective approach to formulate latent feature mining as text-to-text propositional logical reasoning. We propose FLAME (Faithful Latent Feature Mining for Predictive Model Enhancement), a framework that leverages large language models (LLMs) to augment observed features with latent features and enhance the predictive power of ML models in downstream tasks. Our framework is generalizable across various domains with necessary domain-specific adaptation, as it is designed to incorporate contextual information unique to each area, ensuring effective transfer to different areas facing similar data availability challenges. We validate our framework with two case studies: (1) the criminal justice system, a domain characterized by limited and ethically challenging data collection; (2) the healthcare domain, where patient privacy concerns and the complexity of medical data limit comprehensive feature collection. Our results show that inferred latent features align well with ground truth labels and significantly enhance the downstream classifier.
- Abstract(参考訳): 予測モデリングは、データ可用性と品質の制限による課題に直面することが多い。特に、収集された特徴が結果と弱い相関関係にあり、追加の特徴収集が倫理的または実践的な困難によって制約される領域において。
従来の機械学習(ML)モデルは、観測されていないが重要な要素を組み込むのに苦労している。
本研究では,テキストからテキストへの命題論理的推論として潜在特徴抽出を定式化するための効果的な手法を提案する。
FLAME(Faithful Latent Feature Mining for Predictive Model Enhancement)は,大規模言語モデル(LLM)を利用して,潜在機能を備えた観測機能を強化し,下流タスクにおけるMLモデルの予測能力を向上するフレームワークである。
このフレームワークは、各領域に固有のコンテキスト情報を組み込んで、類似したデータ可用性課題に直面した領域への効果的な転送を保証するように設計されており、ドメイン固有の適応を必要とする様々なドメインにまたがって一般化可能である。
我々は,(1)刑事司法制度,(2)患者プライバシの懸念と医療データの複雑さが包括的特徴収集を制限する医療分野を特徴とする領域,という2つのケーススタディを用いて,枠組みを検証した。
以上の結果から,推定潜時特徴は地上の真理ラベルとよく一致し,下流の分類器を著しく強化することがわかった。
関連論文リスト
- GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model [3.012719451477384]
MID-Mは,汎用言語モデル(LLM)のコンテキスト内学習機能を利用して,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークである。
MID-Mは、タスク固有の微調整 LMM や他の汎用ドメインと同等または優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータによる事前トレーニングは行わない。
データ品質問題に対するMID-Mの堅牢性は、実世界の医療ドメインアプリケーションにおいて実用性を示している。
論文 参考訳(メタデータ) (2024-04-29T13:23:33Z) - MISS: Memory-efficient Instance Segmentation Framework By Visual Inductive Priors Flow Propagation [8.727456619750983]
トレーニングデータセットへの視覚的事前の戦略的統合は、テストデータ分布との整合性を高める潜在的なソリューションとして現れます。
MISSの有効性を実証的に評価し、限られたデータ可用性とメモリ制約を特徴とするシナリオにおいて、賞賛可能な性能を示す。
論文 参考訳(メタデータ) (2024-03-18T08:52:23Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。