論文の概要: Latent Feature Mining for Predictive Model Enhancement with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04347v1
- Date: Sun, 6 Oct 2024 03:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:20:17.227344
- Title: Latent Feature Mining for Predictive Model Enhancement with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた予測モデル拡張のための潜在的特徴マイニング
- Authors: Bingxuan Li, Pengyi Shi, Amy Ward,
- Abstract要約: 本稿では,テキストからテキストへの命題論理的推論として潜在特徴抽出を定式化するための効果的なアプローチを提案する。
本稿では,大規模言語モデル (LLM) を利用した潜在機能付き観測機能拡張フレームワークであるFLAMEを提案する。
この枠組みを刑事司法制度と医療領域の2つのケーススタディで検証する。
- 参考スコア(独自算出の注目度): 2.6334346517416876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive modeling often faces challenges due to limited data availability and quality, especially in domains where collected features are weakly correlated with outcomes and where additional feature collection is constrained by ethical or practical difficulties. Traditional machine learning (ML) models struggle to incorporate unobserved yet critical factors. In this work, we introduce an effective approach to formulate latent feature mining as text-to-text propositional logical reasoning. We propose FLAME (Faithful Latent Feature Mining for Predictive Model Enhancement), a framework that leverages large language models (LLMs) to augment observed features with latent features and enhance the predictive power of ML models in downstream tasks. Our framework is generalizable across various domains with necessary domain-specific adaptation, as it is designed to incorporate contextual information unique to each area, ensuring effective transfer to different areas facing similar data availability challenges. We validate our framework with two case studies: (1) the criminal justice system, a domain characterized by limited and ethically challenging data collection; (2) the healthcare domain, where patient privacy concerns and the complexity of medical data limit comprehensive feature collection. Our results show that inferred latent features align well with ground truth labels and significantly enhance the downstream classifier.
- Abstract(参考訳): 予測モデリングは、データ可用性と品質の制限による課題に直面することが多い。特に、収集された特徴が結果と弱い相関関係にあり、追加の特徴収集が倫理的または実践的な困難によって制約される領域において。
従来の機械学習(ML)モデルは、観測されていないが重要な要素を組み込むのに苦労している。
本研究では,テキストからテキストへの命題論理的推論として潜在特徴抽出を定式化するための効果的な手法を提案する。
FLAME(Faithful Latent Feature Mining for Predictive Model Enhancement)は,大規模言語モデル(LLM)を利用して,潜在機能を備えた観測機能を強化し,下流タスクにおけるMLモデルの予測能力を向上するフレームワークである。
このフレームワークは、各領域に固有のコンテキスト情報を組み込んで、類似したデータ可用性課題に直面した領域への効果的な転送を保証するように設計されており、ドメイン固有の適応を必要とする様々なドメインにまたがって一般化可能である。
我々は,(1)刑事司法制度,(2)患者プライバシの懸念と医療データの複雑さが包括的特徴収集を制限する医療分野を特徴とする領域,という2つのケーススタディを用いて,枠組みを検証した。
以上の結果から,推定潜時特徴は地上の真理ラベルとよく一致し,下流の分類器を著しく強化することがわかった。
関連論文リスト
- Health AI Developer Foundations [18.690656891269686]
Health AI Developer Foundations(HAI-DEF)は、トレーニング済み、ドメイン固有の基礎モデル、ツール、レシピのスイートで、ヘルスアプリケーションのための機械学習の構築を加速する。
モデルは、放射線学(X線とCT)、病理学、皮膚画像、オーディオなど、様々なモダリティや領域をカバーする。
これらのモデルは、ラベル付きデータが少なく、トレーニング時間が短く、計算コストが削減されたAI開発を容易にする、ドメイン固有の埋め込みを提供する。
論文 参考訳(メタデータ) (2024-11-22T18:51:51Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation [0.0]
生成的ディープラーニングモデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
生成モデルは、プライバシーリスクであるセンシティブな機能を繰り返す合成データを生成する。
本稿では,知識グラフから知識グラフにドメインと規則的知識を注入する新しいモデルKIPPSを提案する。
論文 参考訳(メタデータ) (2024-09-25T19:50:03Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。