論文の概要: Towards Persistent Case-Based Memory for Autonomous Data Science: A CBR-Augmented R&D-Agent with a Locally Deployable Small Language Model
- arxiv url: http://arxiv.org/abs/2606.05250v1
- Date: Wed, 03 Jun 2026 12:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.281347
- Title: Towards Persistent Case-Based Memory for Autonomous Data Science: A CBR-Augmented R&D-Agent with a Locally Deployable Small Language Model
- Title(参考訳): 自律型データサイエンスのための永続的ケースベースメモリを目指して:局所展開可能な小型言語モデルによるCBR強化R&Dエージェント
- Authors: Felix Stocker,
- Abstract要約: 我々は, Gemma 4 31B Dense のカスタムバックエンドに CBR レイヤを Microsoft の R&D-Agent フレームワークに統合した CBR 拡張 R&D-Agent を提案する。
ケースは構造化レコードとして格納され、実行可能なコードスナップショットと品質メタデータが格納される。
108回の検索イベントにおけるヒューリスティックな再利用検出は,意味的関連性が高いことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most top-performing autonomous data-science agents rely on frontier cloud models and lack persistent, cross-session memory. This paper addresses two open gaps: (1) the underexplored use of formally structured, quality-controlled Case-Based Reasoning (CBR) case bases coupling symbolic case records with executable code artefacts; and (2) the untested viability of Small Language Models (SLMs) as locally deployable agent backbones. We present CBR-augmented R&D-Agent, integrating a persistent CBR layer into Microsoft's R&D-Agent framework with a custom backend for Gemma 4 31B Dense -- the first published end-to-end evaluation of Gemma 4 as an autonomous data-science agent backbone. The CBR layer overrides three R&D loop phases via a surgical subclass toggled by a single environment variable. Cases are stored as structured records with executable code snapshots and quality metadata; a five-gate quality filter and a heuristic reuse-detection mechanism assess knowledge transfer by combining embedding similarity, code-fingerprint overlap, and injection provenance. Evaluated on two Kaggle competitions (NOMAD 2018, Spaceship Titanic) with four seeds over eight improvement loops each, CBR achieves directionally higher accuracy than the CBR-disabled baseline on Spaceship Titanic (0.8147 vs. 0.8098, d = -1.41) with substantially lower variance. Heuristic reuse detection across 108 retrieval events shows high semantic relevance (mean embedding similarity 0.882) alongside variable structural proximity (mean code-fingerprint similarity 0.305), consistent with conceptual guidance rather than verbatim code copying.
- Abstract(参考訳): ほとんどのトップパフォーマンスの自律型データサイエンスエージェントは、フロンティアクラウドモデルに依存しており、永続的で断続的なメモリを欠いている。
本稿では,(1)形式的に構造化された,品質制御されたケースベース推論(CBR)のケースベースを,実行可能コードアーティファクトと組み合わせた上で,(2)ローカルにデプロイ可能なエージェントバックボーンとして,SLM(Small Language Models)の未検証生存可能性について述べる。
CBRの拡張されたR&D-Agentは、永続的なCBR層をMicrosoftのR&D-AgentフレームワークとGemma 4 31B Denseのカスタムバックエンドに統合する。
CBR層は、単一の環境変数によってトグルされた手術サブクラスを介して、3つのR&Dループフェーズをオーバーライドする。
ケースは、実行可能なコードスナップショットと品質メタデータを備えた構造化されたレコードとして格納される。5ゲート品質フィルタとヒューリスティックな再利用検出機構は、埋め込み類似性、コードフィンガープリント重複、インジェクション前兆を組み合わせた知識伝達を評価する。
2つのカグルコンペティション(NOMAD 2018、スペースシップ・タイタニック)において、それぞれ8つの改良ループで4つの種が評価され、CBRは、宇宙船タイタニック (0.8147 vs. 0.8098, d = −1.41) のCBRが持つベースラインよりも方向的に精度が高く、ばらつきがかなり低い。
108件の検索イベントにわたるヒューリスティックな再利用検出は、可変構造近接(平均コードフィンガープリント類似度0.305)と高い意味的関連性(平均埋め込み類似度0.882)を示し、冗長なコードコピーよりも概念的なガイダンスと一致している。
関連論文リスト
- Convergence Theory for Iterative LLM-Based Neural Architecture Search: A Parametric Cross-Entropy Framework with Closed-Form Proxy Reliability [48.83701310501069]
大規模言語モデル(LLM)は、反復型ニューラルアーキテクチャサーチ(NAS)におけるジェネレータとしてますます使われている。
我々は,LCM-NASを,実行可能プログラム上でのパラメトリッククロスエントロピー(CE)法としてモデル化する。
我々は,(1)エリートアーキテクチャの反復LEM微調整は,LLMファミリーに制限されたCE更新と同等であり,(2)期待されるアーキテクチャ品質はサイクル毎に単調に低下せず,(3)エリートセットの確率は幾何率で一定点に収束する,という6つの結果を示した。
論文 参考訳(メタデータ) (2026-05-28T15:45:19Z) - BLAgent: Agentic RAG for File-Level Bug Localization [2.2917707112773593]
BLAgentはファイルレベルのバグローカライゼーションのための新しいエージェントRAGフレームワークである。
BLAgentは、オープンソースモデルで78%以上のTop-1精度を達成した。
BLAgentは、エンドツーエンドの修復の成功を20%以上改善する。
論文 参考訳(メタデータ) (2026-05-18T07:20:13Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Cloud-OpsBench: A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems [51.2882705779387]
Cloud-OpsBenchは、State Snapshot Paradigmを使用して、クラウドの決定論的デジタルツインを構築する大規模なベンチマークである。
フルスタックにまたがる40の根本原因タイプに452の障害ケースがある。
論文 参考訳(メタデータ) (2026-02-28T05:04:42Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。
METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。
敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文 参考訳(メタデータ) (2025-05-21T20:57:16Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。