論文の概要: Knowledge-Informed Automatic Feature Extraction via Collaborative Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2511.15074v1
- Date: Wed, 19 Nov 2025 03:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.615834
- Title: Knowledge-Informed Automatic Feature Extraction via Collaborative Large Language Model Agents
- Title(参考訳): 協調型大規模言語モデルエージェントによる知識情報の自動特徴抽出
- Authors: Henrik Bradland, Morten Goodwin, Vladimir I. Zadorozhny, Per-Arne Andersen,
- Abstract要約: Rogue Oneは知識インフォームド自動特徴抽出のための新しいマルチエージェントフレームワークである。
Rogue Oneは、19の分類と9の回帰データセットからなる総合的なスイートにおいて、最先端の手法を大幅に上回っていることを実証した。
- 参考スコア(独自算出の注目度): 3.913122709822389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of machine learning models on tabular data is critically dependent on high-quality feature engineering. While Large Language Models (LLMs) have shown promise in automating feature extraction (AutoFE), existing methods are often limited by monolithic LLM architectures, simplistic quantitative feedback, and a failure to systematically integrate external domain knowledge. This paper introduces Rogue One, a novel, LLM-based multi-agent framework for knowledge-informed automatic feature extraction. Rogue One operationalizes a decentralized system of three specialized agents-Scientist, Extractor, and Tester-that collaborate iteratively to discover, generate, and validate predictive features. Crucially, the framework moves beyond primitive accuracy scores by introducing a rich, qualitative feedback mechanism and a "flooding-pruning" strategy, allowing it to dynamically balance feature exploration and exploitation. By actively incorporating external knowledge via an integrated retrieval-augmented (RAG) system, Rogue One generates features that are not only statistically powerful but also semantically meaningful and interpretable. We demonstrate that Rogue One significantly outperforms state-of-the-art methods on a comprehensive suite of 19 classification and 9 regression datasets. Furthermore, we show qualitatively that the system surfaces novel, testable hypotheses, such as identifying a new potential biomarker in the myocardial dataset, underscoring its utility as a tool for scientific discovery.
- Abstract(参考訳): 表データに対する機械学習モデルの性能は、高品質な機能工学に依存している。
大きな言語モデル(LLM)は機能抽出(AutoFE)の自動化を約束しているが、既存のメソッドはモノリシックなLLMアーキテクチャ、単純化された定量的フィードバック、外部ドメインの知識を体系的に統合する失敗などによって制限されることが多い。
本稿では,知識インフォームド自動特徴抽出のためのLLMベースのマルチエージェントフレームワークであるRogue Oneを紹介する。
Rogue Oneは3つの専門エージェント(サイエントリスト、エクストラクタ、テスタ)の分散システムを運用し、予測機能を発見し、生成し、検証する。
重要なことに、このフレームワークは、リッチで質的なフィードバック機構と"フローディング・プルーニング"戦略を導入し、機能の探索とエクスプロイトを動的にバランスさせることによって、プリミティブな精度スコアを越えている。
統合検索強化(RAG)システムを通じて外部知識を積極的に取り入れることで、Rogue Oneは統計的に強力であるだけでなく、意味的に意味があり、解釈可能な機能を生成する。
Rogue Oneは、19の分類と9の回帰データセットからなる総合的なスイートにおいて、最先端の手法を大幅に上回っていることを実証した。
さらに, 本システムは, 新たなバイオマーカーを心筋データセットに同定し, 科学的発見のためのツールとしての有用性を実証するなど, 新規で検証可能な仮説を定性的に提示する。
関連論文リスト
- FELA: A Multi-Agent Evolutionary System for Feature Engineering of Industrial Event Log Data [7.129004248608012]
イベントログデータは、現代のデジタルサービスにとって最も価値のある資産の1つである。
AutoMLや遺伝的手法のような既存の機能エンジニアリングアプローチは、しばしば限定的な説明責任に悩まされる。
複雑なイベントログデータから有意義かつ高性能な特徴を自律的に抽出するマルチエージェント進化システムFELAを提案する。
論文 参考訳(メタデータ) (2025-10-29T06:57:32Z) - Spec-Driven AI for Science: The ARIA Framework for Automated and Reproducible Data Analysis [23.28226188948918]
ARIAは、自動および解釈可能なデータ分析のための、仕様駆動のヒューマン・イン・ザ・ループ・フレームワークである。
ARIAは、Command、Context、Code、Data、Orchesttion、AI Moduleという6つのレイヤを統合している。
ARIAは透明で協調的で再現可能な科学的発見のための新しいパラダイムを確立している。
論文 参考訳(メタデータ) (2025-10-13T08:32:43Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - Probing Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。