論文の概要: Ensembling LLM-Induced Decision Trees for Explainable and Robust Error Detection
- arxiv url: http://arxiv.org/abs/2512.07246v1
- Date: Mon, 08 Dec 2025 07:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.763359
- Title: Ensembling LLM-Induced Decision Trees for Explainable and Robust Error Detection
- Title(参考訳): 説明可能かつロバストな誤り検出のためのLCM誘導決定ツリーの組込み
- Authors: Mengqi Wang, Jianwei Wang, Qing Liu, Xiwei Xu, Zhenchang Xing, Liming Zhu, Wenjie Zhang,
- Abstract要約: エラー検出はデータ品質の確保に重要である。
近年の最先端ED法では,大規模言語モデル(LLM)に組み込まれた事前学習された知識と意味的能力を利用して,細胞が誤っているかを直接ラベル付けしている。
ED(termed TreeED)の決定木を誘導するLLM-as-an-inducerフレームワークを提案し,さらにコンセンサス検出(termed ForestED)のために複数の木をアンサンブルする。
我々の手法は正確で説明可能で堅牢であり、最高のベースラインに対して平均16.1%のF1スコア改善を実現している。
- 参考スコア(独自算出の注目度): 24.742137117129502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Error detection (ED), which aims to identify incorrect or inconsistent cell values in tabular data, is important for ensuring data quality. Recent state-of-the-art ED methods leverage the pre-trained knowledge and semantic capability embedded in large language models (LLMs) to directly label whether a cell is erroneous. However, this LLM-as-a-labeler pipeline (1) relies on the black box, implicit decision process, thus failing to provide explainability for the detection results, and (2) is highly sensitive to prompts, yielding inconsistent outputs due to inherent model stochasticity, therefore lacking robustness. To address these limitations, we propose an LLM-as-an-inducer framework that adopts LLM to induce the decision tree for ED (termed TreeED) and further ensembles multiple such trees for consensus detection (termed ForestED), thereby improving explainability and robustness. Specifically, based on prompts derived from data context, decision tree specifications and output requirements, TreeED queries the LLM to induce the decision tree skeleton, whose root-to-leaf decision paths specify the stepwise procedure for evaluating a given sample. Each tree contains three types of nodes: (1) rule nodes that perform simple validation checks (e.g., format or range), (2) Graph Neural Network (GNN) nodes that capture complex patterns (e.g., functional dependencies), and (3) leaf nodes that output the final decision types (error or clean). Furthermore, ForestED employs uncertainty-based sampling to obtain multiple row subsets, constructing a decision tree for each subset using TreeED. It then leverages an Expectation-Maximization-based algorithm that jointly estimates tree reliability and optimizes the consensus ED prediction. Extensive xperiments demonstrate that our methods are accurate, explainable and robust, achieving an average F1-score improvement of 16.1% over the best baseline.
- Abstract(参考訳): グラフデータ中の不正確なセル値や不整合セル値の同定を目的としたエラー検出(ED)は,データ品質の確保に重要である。
近年の最先端ED法では,大規模言語モデル(LLM)に組み込まれた事前学習された知識と意味的能力を利用して,細胞が誤っているかを直接ラベル付けしている。
しかし、このLSM-as-a-labelerパイプライン(1)はブラックボックス、暗黙の判定プロセスに依存しており、検出結果に説明性を提供しておらず、(2)プロンプトに非常に敏感であり、本質的なモデル確率性による不整合出力を生じるため、ロバスト性に欠ける。
これらの制約に対処するため,LLM を用いて ED (termed TreeED) の決定木を誘導する LLM-as-an-inducer フレームワークを提案し,コンセンサス検出 (termed ForestED) のために複数の木をアンサンブルすることで,説明可能性と堅牢性を向上させる。
具体的には、データコンテキスト、決定ツリー仕様、出力要求から派生したプロンプトに基づいて、TreeEDは、LLMに決定ツリースケルトンを誘導するよう要求する。
各ツリーには、簡単な検証チェック(例、フォーマット、範囲)を実行するルールノード、複雑なパターン(例、関数依存)をキャプチャするグラフニューラルネットワーク(GNN)ノード、最終決定型(エラーまたはクリーン)を出力するリーフノードの3つのタイプがある。
さらに、ForestEDは不確実性に基づくサンプリングを使用して複数の行サブセットを取得し、TreeEDを使用して各サブセットに対する決定木を構築する。
次に、ツリーの信頼性を共同で推定し、コンセンサスED予測を最適化する期待最大化アルゴリズムを利用する。
大規模なXperimentsは、我々の手法が正確で説明可能で堅牢であることを示し、最高のベースラインに対して平均16.1%のF1スコア改善を実現している。
関連論文リスト
- Decision Tree Embedding by Leaf-Means [11.318593165494724]
決定木埋め込み(Decision Tree Embedding, DTE)は、訓練された分類木の葉の分割を利用して解釈可能な特徴表現を構築する、迅速かつ効果的な方法である。
各葉領域内のサンプル手段をアンカーポイントとして使用することにより、DTEは木の分割構造によって定義された埋め込み空間に入力をマップする。
軽度条件下での条件密度の保存を含む,DTEの個体群レベルの理論的特性を確立した。
論文 参考訳(メタデータ) (2025-12-01T15:57:33Z) - Node-Level Uncertainty Estimation in LLM-Generated SQL [13.436696325103147]
本稿では,構造コンテナやエイリアスの変化を過小評価することなく,ノードレベルの正しさを割り当てるセマンティックなラベリングアルゴリズムを提案する。
私たちは、識別子の妥当性、エイリアス解決、型互換性、スコープのあいまいさ、タイポ信号といった、スキーマ認識と語彙の豊富な機能で、各ノードを表現します。
これらの確率は不確実性であると解釈し、クエリの誤りを正確に特定するきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2025-11-17T23:31:45Z) - Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models [13.433506313486701]
ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T06:22:45Z) - ZTree: A Subgroup Identification Based Decision Tree Learning Framework [3.119681354260829]
本稿では,新しい決定木学習フレームワークZTreeを提案する。
CARTの伝統的な純度に基づく分割を統計学的に原則化されたサブグループ識別に置き換える。
ZTreeは、特に低データレシエーションにおいて、一貫して強力なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-09-16T05:25:16Z) - Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - Probabilistic Tree-of-thought Reasoning for Answering
Knowledge-intensive Complex Questions [93.40614719648386]
大規模言語モデル(LLM)は、知識集約的な複雑な質問にチェーン・オブ・シント(CoT)推論で答えることができる。
最近の研究は、CoT推論を強化するための外部知識の回収に向けられている。
確率的ツリー・オブ・シント推論(ProbTree)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:52:37Z) - Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.71020326388029]
Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。
分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
論文 参考訳(メタデータ) (2023-10-21T15:18:22Z) - Robustifying Algorithms of Learning Latent Trees with Vector Variables [92.18777020401484]
Recursive Grouping (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑性について述べる。
RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。
我々は、潜在木の構造学習において、最初の既知のインスタンス依存の不合理性の結果を導出する。
論文 参考訳(メタデータ) (2021-06-02T01:37:52Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。