論文の概要: From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data
- arxiv url: http://arxiv.org/abs/2605.22897v1
- Date: Thu, 21 May 2026 15:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.031671
- Title: From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data
- Title(参考訳): 残響から言い換えへ:語彙データからのLPM誘導メカニズム推論
- Authors: Mohammad R. Rezaei, Rahul G. Krishnan,
- Abstract要約: 科学的応用のための機械学習における永続的な課題は、予測と理解を共同で達成することである。
マルチエージェント残差文脈学習(MARICL)を導入する。
MARICLは、すべてのデータセットのベースモデルに対して一貫して改善されている。
- 参考スコア(独自算出の注目度): 10.795877029195845
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A persistent challenge in machine learning for scientific applications is jointly achieving prediction and understanding. Statistical models excel on structured data but operate as black boxes, while existing interpretability methods are largely inspective: they answer "which features matter?" but do not articulate how features interact or refine explanations iteratively alongside human understanding. Asking an LLM to predict the target directly forces it to search the entire output space; we instead anchor predictions with a base model and ask the LLM the narrower question of what that model is missing. We introduce Multi-Agent Residual In-Context Learning (MARICL), an agentic framework in which LLM agents analyze where a base-model fails, hypothesize missing structure from high-residual examples provided in context, and produce explicit correction terms refined through multi-turn textual gradient optimization. Across nine benchmarks spanning scientific, biomedical, socioeconomic, and synthetic settings, MARICL improves consistently over its base model on all datasets. To test whether these corrections reflect real structure or batch-specific noise, we freeze formulas learned on one experimental batch of the Cell-Free Protein dataset and apply them (with no retraining and no further LLM calls) to held-out batches. Within the same reagent protocol, the frozen formulas improve predictions in over 92% of cases; across a different protocol, they fail systematically. The success boundary aligns with the biochemistry, not the batch count; direct evidence of mechanistic generalization.
- Abstract(参考訳): 科学的応用のための機械学習における永続的な課題は、予測と理解を共同で達成することである。
統計モデルは構造化されたデータに対して排他的であり、ブラックボックスとして機能するが、既存の解釈可能性法は「重要な特徴」に答えるが、機能がどのように相互作用するかを明記したり、人間の理解と反復的に説明したりしない。
LLMに目標を予測させると、直接出力空間全体を探索せざるを得なくなり、代わりにベースモデルで予測をアンカーし、LLMにそのモデルに欠けているものについてより狭い質問をする。
我々は,LLMエージェントがベースモデルが故障した箇所を解析し,コンテキストに付与された高残差例から欠落構造を仮説化し,マルチターンテキスト勾配最適化によって改善された明示的な補正項を生成するエージェントフレームワークであるMulti-Agent Residual In-Context Learning(MARICL)を紹介する。
科学的、医学的、社会経済的、合成的な設定にまたがる9つのベンチマークにおいて、MARICLはすべてのデータセットのベースモデルに対して一貫して改善されている。
これらの補正が実際の構造やバッチ固有のノイズを反映するかどうかを調べるため、セルフリータンパク質データセットの1つの実験バッチで学習した公式を凍結し、保留バッチに適用する(再トレーニングもLLM呼び出しも行わない)。
同じ試薬プロトコル内では、凍結式は92%以上のケースで予測を改善する。
成功境界は、バッチ数ではなく生化学と一致しており、機械的一般化の直接的な証拠である。
関連論文リスト
- Epistemic Blinding: An Inference-Time Protocol for Auditing Prior Contamination in LLM-Assisted Analysis [0.0]
エピステミックブラインド(英: epistemic blinding)は、エンティティ識別子を匿名のコードに置き換える単純な推論時プロトコルである。
4種類のがん種を対象とする腫瘍薬剤の優先順位付けでは、盲目化は上位20の予測の16%に変化し、検証対象の同一の回復を保っている。
S&P 500エクイティ・スクリーニングでは、ブランド認識バイアスが5つのランダムな種子のトップ20ランキングの30-40%を占めている。
論文 参考訳(メタデータ) (2026-04-07T16:06:52Z) - Confusion-Aware Rubric Optimization for LLM-based Automated Grading [31.353360036776976]
本稿では,精度と計算効率を向上させる新しいフレームワークであるConfusion-Aware Optimization (CARO)を紹介する。
CAROはモノリシックなエラー信号を異なるモードに分解し、明確な診断と特定の誤分類パターンの修復を可能にする。
以上の結果から,複合エラー集約を外科的,モード特異的な修復に置き換えることにより,自動評価のスケーラビリティと精度が向上することが示唆された。
論文 参考訳(メタデータ) (2026-02-28T04:17:12Z) - Task-Awareness Improves LLM Generations and Uncertainty [48.857040212979484]
ベイズ最適応答は、ビームサーチのような標準的な復号法より一貫して優れている。
我々の決定論的なフレームワークは、潜在応答構造を持つあらゆる問題に適用できる。
論文 参考訳(メタデータ) (2026-01-29T10:16:23Z) - Framework for Machine Evaluation of Reasoning Completeness in Large Language Models For Classification Tasks [0.0]
本稿では、説明の完全性のためのRAS-Reasoning Alignmentを紹介する。
我々は,広く使用されている4つのテキスト分類データセット,WIKI ONTOLOGY, AG NEWS, IMDB, GOEMOTIONSを分析した。
正解予測はサポート特徴のカバレッジが高く,正解予測は矛盾する特徴のカバレッジの増大と関連していることを示す。
論文 参考訳(メタデータ) (2025-10-23T20:22:22Z) - Meta-Learning Linear Models for Molecular Property Prediction [3.9685594339912633]
本稿では,メタラーニングのための線形アルゴリズムであるLAMeLを紹介する。
本手法は,データセットの領域によって,標準リッジ回帰よりも1.1~25倍の性能向上を実現している。
論文 参考訳(メタデータ) (2025-09-16T20:41:45Z) - Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [35.19786322586909]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISはマルチエージェントポリシーのための人間中心のアクション説明を生成する。
自動運転車のAXISを10シナリオで5 LLMで評価した。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。