論文の概要: HySim-LLM: Embedding-Weighted Fine-Tuning Bounds and Manifold Denoising for Domain-Adapted LLMs
- arxiv url: http://arxiv.org/abs/2510.07796v1
- Date: Thu, 09 Oct 2025 05:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.87991
- Title: HySim-LLM: Embedding-Weighted Fine-Tuning Bounds and Manifold Denoising for Domain-Adapted LLMs
- Title(参考訳): HySim-LLM:埋め込み重み付きファインチューニング境界とドメイン適応LDMのマニフォールディング
- Authors: Majid Jaberi-Douraki, Hossein Sholehrasa, Xuan Xu, Remya Ampadi Ramachandran,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト理解と推論において顕著な進歩を遂げた。
埋め込み重み付きファインチューニングと多様体認識デノーミングを統合した,統一的な数学的・計算フレームワークHySim-LLMを提案する。
本研究では,(1)組込み発散下での適応性能を定量化する類似性重み付き一般化境界,(2)ノイズやオフ多様体からの損失寄与を束縛する多様体に基づく記述保証,の2つの理論的結果を確立する。
- 参考スコア(独自算出の注目度): 2.079369647798082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction and standardization of pharmacokinetic (PK) information from scientific literature remain significant challenges in computational pharmacology, which limits the reliability of data-driven models in drug development. Large language models (LLMs) have achieved remarkable progress in text understanding and reasoning, yet their adaptation to structured biomedical data, such as PK tables, remains constrained by heterogeneity, noise, and domain shift. To address these limitations, we propose HySim-LLM, a unified mathematical and computational framework that integrates embedding-weighted fine-tuning and manifold-aware denoising to enhance the robustness and interpretability of LLMs. We establish two theoretical results: (1) a similarity-weighted generalization bound that quantifies adaptation performance under embedding divergence, and (2) a manifold-based denoising guarantee that bounds loss contributions from noisy or off-manifold samples. These theorems provide a principled foundation for fine-tuning LLMs in structured biomedical settings. The framework offers a mathematically grounded pathway toward reliable and interpretable LLM adaptation for biomedical and data-intensive scientific domains.
- Abstract(参考訳): 科学文献からの薬物動態(PK)情報の抽出と標準化は、薬物開発におけるデータ駆動モデルの信頼性を制限する計算薬理学において重要な課題である。
大規模言語モデル(LLM)は、テキスト理解と推論において顕著な進歩を遂げているが、PKテーブルのような構造化バイオメディカルデータへの適応は、不均一性、ノイズ、ドメインシフトによって制約されている。
これらの制約に対処するため,LLMの堅牢性と解釈可能性を高めるために,埋め込み重み付き微調整と多様体認識デノジングを統合した統一的な数学的・計算フレームワークHySim-LLMを提案する。
本研究では,(1)組込み発散下での適応性能を定量化する類似性重み付き一般化境界,(2)ノイズやオフ多様体からの損失寄与を束縛する多様体に基づく記述保証,の2つの理論的結果を確立する。
これらの定理は、構造化バイオメディカルセッティングにおける微調整LDMの基礎となる。
このフレームワークは、バイオメディカルおよびデータ集約的な科学領域に対する信頼性と解釈可能なLSM適応への数学的基盤を提供する。
関連論文リスト
- Adapting HFMCA to Graph Data: Self-Supervised Learning for Generalizable fMRI Representations [57.054499278843856]
機能的磁気共鳴画像(fMRI)解析は、データセットのサイズが限られ、研究間でのドメインの変動が原因で大きな課題に直面している。
コンピュータビジョンにインスパイアされた従来の自己教師付き学習手法は、正と負のサンプルペアに依存することが多い。
本稿では,最近開発された階層関数最大相関アルゴリズム(HFMCA)をグラフ構造fMRIデータに適用することを提案する。
論文 参考訳(メタデータ) (2025-10-05T12:35:01Z) - BioVERSE: Representation Alignment of Biomedical Modalities to LLMs for Multi-Modal Reasoning [0.36855563110245826]
本稿では,事前学習したBioFMをモダリティエンコーダとして適応する2段階のアプローチであるBIOVERSEを提案する。
このアプローチはまず、各モダリティを共有 LLM 空間に整列する。
次に、マルチモーダルデータによる標準的な命令チューニングを適用して、下流の推論のためにそれらをまとめる。
論文 参考訳(メタデータ) (2025-10-01T20:07:36Z) - LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference [1.1538255621565348]
本稿では,共同創設者の自動発見とサブグループ分析のための大規模言語モデルに基づくエージェントを提案する。
本フレームワークは,サブグループ識別と構造発見を体系的に行う。
以上の結果から,LSMをベースとしたエージェントは,スケーラブルで信頼性が高く,セマンティックに認識された因果推論へ有望な道をたどることが示唆された。
論文 参考訳(メタデータ) (2025-08-10T07:45:49Z) - CANDLE: A Cross-Modal Agentic Knowledge Distillation Framework for Interpretable Sarcopenia Diagnosis [3.0245458192729466]
CANDLEは、解釈可能性と性能のトレードオフを緩和し、予測精度を高め、高い決定一貫性を維持する。
このフレームワークは、TMLモデルの知識アセット化に対するスケーラブルなアプローチを提供し、サルコピアおよび潜在的に広い医療領域における解釈可能、再現可能、および臨床的に整合した意思決定支援を可能にする。
論文 参考訳(メタデータ) (2025-07-26T15:50:08Z) - When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文 参考訳(メタデータ) (2025-05-22T05:10:34Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Can LLMs Assist Expert Elicitation for Probabilistic Causal Modeling? [0.0]
本研究では,構造化因果知識を抽出するための人間専門家の勧誘の代替として,Large Language Models (LLMs) の可能性について検討する。
LLMは因果構造、特にベイズネットワーク(BN)を生成し、従来の統計手法と比較した。
LLMが生成したBNは、専門家によって導かれ統計的に生成されたBNよりも低いエントロピーを示し、予測の信頼性と精度が示唆された。
論文 参考訳(メタデータ) (2025-04-14T16:45:52Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Interpretability from a new lens: Integrating Stratification and Domain
knowledge for Biomedical Applications [0.0]
本稿では, バイオメディカル問題データセットの k-fold cross-validation (CV) への階層化のための新しい計算手法を提案する。
このアプローチはモデルの安定性を改善し、信頼を確立し、トレーニングされたIMLモデルによって生成された結果の説明を提供する。
論文 参考訳(メタデータ) (2023-03-15T12:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。