論文の概要: Uncovering Bias Paths with LLM-guided Causal Discovery: An Active Learning and Dynamic Scoring Approach
- arxiv url: http://arxiv.org/abs/2506.12227v1
- Date: Fri, 13 Jun 2025 21:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.499985
- Title: Uncovering Bias Paths with LLM-guided Causal Discovery: An Active Learning and Dynamic Scoring Approach
- Title(参考訳): LLM誘導因果発見によるバイアスパスの発見:アクティブラーニングとダイナミックスコーリングのアプローチ
- Authors: Khadija Zanna, Akane Sano,
- Abstract要約: 大規模言語モデル(LLM)は、統計的因果発見(CD)アプローチを有望に補完する。
機械学習における公平性を保証するには、センシティブな属性が結果に因果的にどのように影響するかを理解する必要がある。
本稿では,BFS(Broadth-first Search)戦略を拡張し,アクティブラーニングと動的スコアリングを併用したCD用LLMベースのハイブリッドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.5498930424110338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal discovery (CD) plays a pivotal role in understanding the mechanisms underlying complex systems. While recent algorithms can detect spurious associations and latent confounding, many struggle to recover fairness-relevant pathways in realistic, noisy settings. Large Language Models (LLMs), with their access to broad semantic knowledge, offer a promising complement to statistical CD approaches, particularly in domains where metadata provides meaningful relational cues. Ensuring fairness in machine learning requires understanding how sensitive attributes causally influence outcomes, yet CD methods often introduce spurious or biased pathways. We propose a hybrid LLM-based framework for CD that extends a breadth-first search (BFS) strategy with active learning and dynamic scoring. Variable pairs are prioritized for LLM-based querying using a composite score based on mutual information, partial correlation, and LLM confidence, improving discovery efficiency and robustness. To evaluate fairness sensitivity, we construct a semi-synthetic benchmark from the UCI Adult dataset, embedding a domain-informed causal graph with injected noise, label corruption, and latent confounding. We assess how well CD methods recover both global structure and fairness-critical paths. Our results show that LLM-guided methods, including the proposed method, demonstrate competitive or superior performance in recovering such pathways under noisy conditions. We highlight when dynamic scoring and active querying are most beneficial and discuss implications for bias auditing in real-world datasets.
- Abstract(参考訳): 因果発見(CD)は、複雑なシステムの基礎となるメカニズムを理解する上で重要な役割を担っている。
近年のアルゴリズムは、刺激的な関連や潜伏する共起を検出することができるが、現実的でノイズの多い環境では、公平な関連経路の回復に苦慮する者も多い。
大きな言語モデル(LLM)は、幅広い意味的知識にアクセスでき、特にメタデータが意味のあるリレーショナルな手がかりを提供する領域において、統計CDアプローチの有望な補完を提供する。
機械学習における公平性を保証するには、機密性の高い属性が結果に因果的にどのように影響するかを理解する必要があるが、CDメソッドはスパイラルまたは偏りの経路をしばしば導入する。
本稿では,BFS(Broadth-first Search)戦略を拡張し,アクティブラーニングと動的スコアリングを併用したCD用LLMベースのハイブリッドフレームワークを提案する。
相互情報, 部分相関, LLM信頼度に基づく合成スコアを用いて, LLMベースのクエリに可変ペアを優先し, 発見効率とロバスト性を向上させる。
UCIアダルトデータセットから半合成ベンチマークを構築し,ノイズの注入,ラベルの破損,潜伏したコンバウンディングを施したドメイン情報付き因果グラフを組み込んだ。
我々は,CD手法がグローバルな構造とフェアネスクリティカルパスの両方をいかに回復するかを評価する。
提案手法を含むLCM誘導法は, 騒音条件下での経路回復において, 競合性や優れた性能を示す。
動的スコアリングとアクティブクエリが最も有用であることを強調し、実世界のデータセットにおけるバイアス監査の意義について議論する。
関連論文リスト
- Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。
コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。
また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文 参考訳(メタデータ) (2026-02-20T04:24:49Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - HISE-KT: Synergizing Heterogeneous Information Networks and LLMs for Explainable Knowledge Tracing with Meta-Path Optimization [4.7820785031117845]
知識追跡は、学生の進化する知識状態を掘り下げ、将来の質問応答性能を予測することを目的としている。
異種情報ネットワーク(HIN)に基づく既存手法では,手動によるメタパスの選択やランダムな選択によるノイズの導入が困難である。
我々は,HINをLLMとシームレスに統合する,革新的なフレームワークHIN-LLM Synergistic Enhanced Knowledge Tracing (HISE-KT)を提案する。
論文 参考訳(メタデータ) (2025-11-19T07:24:10Z) - Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Dynamically Adaptive Reasoning via LLM-Guided MCTS for Efficient and Context-Aware KGQA [6.765017336265049]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRはシンボリックサーチと適応経路評価を統合し,KGQAを効率よく認識する。
複数のKGQAベンチマークの実験では、DAMRは最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Paths to Causality: Finding Informative Subgraphs Within Knowledge Graphs for Knowledge-Based Causal Discovery [10.573861741540853]
本稿では,知識グラフ(KG)をLarge Language Models(LLM)と統合し,知識に基づく因果探索を強化する新しい手法を提案する。
本稿では,KGs内の情報的メタパスに基づくサブグラフを特定し,ラーニング・トゥ・ランクモデルを用いて,これらのサブグラフの選択をさらに洗練する。
本手法は,F1スコアにおいて最大44.4ポイントのベースラインを上回り,多種多様LLMおよびKGで評価した。
論文 参考訳(メタデータ) (2025-06-10T13:13:55Z) - Learning to Explore: An In-Context Learning Approach for Pure Exploration [23.16863295063427]
本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説試験問題について検討する。
In-Context Pure Exploration (ICPE, In-Context Pure Exploration) は, Transformer を用いて経験から直接探索戦略を学習する,コンテキスト内学習手法である。
ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
論文 参考訳(メタデータ) (2025-06-02T17:04:50Z) - Fairness-Driven LLM-based Causal Discovery with Active Learning and Dynamic Scoring [1.5498930424110338]
因果発見(英: Causal discovery, CD)は、様々な分野において観測される現象の根底にある因果関係を明らかにすることで、多くの科学分野において重要な役割を担っている。
CDアルゴリズムの大幅な進歩にもかかわらず、その応用は大規模データの高い計算要求と複雑さのために困難に直面している。
本稿では,CDにLarge Language Models(LLM)を活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T22:58:26Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Understanding Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework [21.87740178652843]
因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。
本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。
実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
論文 参考訳(メタデータ) (2024-06-07T03:09:22Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。