論文の概要: A phenotype-driven and evidence-governed framework for knowledge graph enrichment and hypotheses discovery in population data
- arxiv url: http://arxiv.org/abs/2604.16982v1
- Date: Sat, 18 Apr 2026 12:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.273406
- Title: A phenotype-driven and evidence-governed framework for knowledge graph enrichment and hypotheses discovery in population data
- Title(参考訳): 人口データにおける知識グラフの豊か化と仮説発見のための表現型とエビデンスに支配された枠組み
- Authors: Adela Bâra, Simona-Vasilica Oprea,
- Abstract要約: 本稿では,このパラダイムを構造化仮説発見と制御KG展開にシフトさせる枠組みを提案する。
このアプローチは、表現型発見、因果推論、確率論的推論、仮説生成とクレーム抽出のための大規模言語モデル(LLM)のためにグラフニューラルネットワーク(GNN)を統合する。
異種集団データセットの実験により、提案手法はより解釈可能な表現型を生成し、文脈に依存した因果構造を明らかにし、データと科学的証拠の両方に整合した高品質なクレームを生成することが示された。
- 参考スコア(独自算出の注目度): 8.680081568962999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current knowledge graph (KG) construction methods are confirmatory, focusing on recovering known relationships rather than identifying novel or context-dependent nodes. This paper proposes a phenotype-driven and evidence-governed framework that shifts the paradigm toward structured hypothesis discovery and controlled KG expansion. The approach integrates graph neural networks (GNNs) for phenotype discovery, causal inference, probabilistic reasoning and large language models (LLMs) for hypothesis generation and claim extraction within a unified pipeline. The framework prioritizes relationships that are both structurally supported by data and underexplored in the literature. KG expansion is formulated as a multi-objective optimization problem, where candidate claims are jointly evaluated in terms of relevance, structural validation and novelty. Pareto-optimal selection enables the identification of non-dominated claims that balance confirmation and discovery, avoiding trivial or redundant knowledge inclusion. Experiments on heterogeneous population datasets demonstrate that the proposed framework produces more interpretable phenotypes, reveals context-dependent causal structures and generates high-quality claims that align with both data and scientific evidence. Compared to rule-based and LLM-only baselines, the method achieves the best trade-off across plausibility, novelty, validation and relevance. In retrieval-augmented settings, it significantly improves performance (Recall@5=0.98) while reducing hallucination rates (0.05), highlighting its effectiveness in grounding LLM outputs.
- Abstract(参考訳): 現在の知識グラフ(KG)構築法は、新しいノードやコンテキスト依存ノードを識別するのではなく、既知の関係を復元することに焦点を当てている。
本稿では,このパラダイムを,構造的仮説発見と制御されたKG展開へとシフトさせる,表現型駆動型およびエビデンス統治型フレームワークを提案する。
このアプローチは、表現型発見、因果推論、確率論的推論、仮説生成のための大規模言語モデル(LLM)、統一パイプライン内でのクレーム抽出にグラフニューラルネットワーク(GNN)を統合する。
このフレームワークは、データによって構造的に支持され、文献で過小評価されている関係を優先する。
KG拡張は多目的最適化問題として定式化され、候補クレームは関連性、構造的検証、新規性の観点から共同評価される。
パレート最適選択(Pareto-Optimal selection)は、自明または冗長な知識の包含を避けることで、確認と発見のバランスをとる非支配的クレームの識別を可能にする。
異種集団データセットの実験により、提案するフレームワークはより解釈可能な表現型を生成し、文脈に依存した因果構造を明らかにし、データと科学的証拠の両方に整合した高品質なクレームを生成することが示された。
ルールベースとLCMのみのベースラインと比較すると,本手法は妥当性,新規性,妥当性,妥当性の両面で最高のトレードオフを実現する。
検索強化設定では、幻覚率(0.05)を下げながら性能(Recall@5=0.98)を大幅に改善し、LLM出力のグラウンド化の有効性を強調している。
関連論文リスト
- HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models [4.211691393530721]
我々は,大規模言語モデルに対する微細な幻覚の帰属とエビデンス検索の枠組みであるHARTを提案する。
HARTは幻覚追跡を、局所化、メカニズム帰属、エビデンス検索、因果トレースの4段階からなる構造化モデリングタスクとして定式化する。
この定式化に基づいて,幻覚追跡に適した最初の構造化データセットを開発した。
論文 参考訳(メタデータ) (2026-03-06T02:23:55Z) - Hallucination Detection and Mitigation in Large Language Models [0.0]
LLM(Large Language Models)とLRM(Large Reasoning Models)は、金融や法律のような高額な領域に変革をもたらす。
幻覚を起こそうとする傾向は、事実的に不正確な、または、サポートされていないコンテンツを発生させ、重大な信頼性のリスクを生じさせる。
本稿では,根本原因認識による継続的改善サイクル上に構築された幻覚管理のための包括的枠組みを紹介する。
論文 参考訳(メタデータ) (2026-01-14T23:19:37Z) - Information-theoretic Quantification of High-order Feature Effects in Classification Problems [0.19791587637442676]
特徴重要度(Hi-Fi)法における高次相互作用の情報理論拡張について述べる。
私たちのフレームワークは、機能のコントリビューションをユニークでシナジスティックで冗長なコンポーネントに分解します。
その結果,提案した推定器は理論的および予測された結果を正確に復元することがわかった。
論文 参考訳(メタデータ) (2025-07-06T11:50:30Z) - dcFCI: Robust Causal Discovery Under Latent Confounding, Unfaithfulness, and Mixed Data [1.9797215742507548]
本稿では,最初の非パラメトリックスコアを導入し,部分アンセストラルグラフと観測データとの整合性を評価する。
次にデータ互換のFast Causal Inference (dcFCI)を提案する。
論文 参考訳(メタデータ) (2025-05-10T07:05:19Z) - Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。
帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。
本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。
第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文 参考訳(メタデータ) (2024-08-03T13:37:40Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。