論文の概要: Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Improves Without Labels or Model Updates
- arxiv url: http://arxiv.org/abs/2510.14900v1
- Date: Thu, 16 Oct 2025 17:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.970517
- Title: Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Improves Without Labels or Model Updates
- Title(参考訳): よりスマートにマッピングする - ラベルやモデル更新を使わずに改善するテスト時間強化学習エージェント
- Authors: Wen-Kwang Tsao, Yao-Ching Yu, Chien-Ming Huang,
- Abstract要約: Enterprise Intelligence Platformは多くのサードパーティベンダのログを統合する必要がある。
ベンダーのドキュメンテーションはテスト時に利用できないことが多い。
ラベル付き例を使わずに自己改善できる強化学習エージェントを提案する。
- 参考スコア(独自算出の注目度): 1.6440434996206623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Enterprise Intelligence Platform must integrate logs from numerous third-party vendors in order to perform various downstream tasks. However, vendor documentation is often unavailable at test time. It is either misplaced, mismatched, poorly formatted, or incomplete, which makes schema mapping challenging. We introduce a reinforcement learning agent that can self-improve without labeled examples or model weight updates. During inference, the agent: 1) Identifies ambiguous field-mapping attempts. 2) Generates targeted web-search queries to gather external evidence. 3) Applies a confidence-based reward to iteratively refine its mappings. To demonstrate this concept, we converted Microsoft Defender for Endpoint logs into a common schema. Our method increased mapping accuracy from 56.4\%(LLM-only) to 72.73\%(RAG) to 93.94\% over 100 iterations using GPT-4o. At the same time, it reduced the number of low-confidence mappings requiring expert review by 85\%. This new approach provides an evidence-driven, transparent method for solving future industry problems, paving the way for more robust, accountable, scalable, efficient, flexible, adaptable, and collaborative solutions.
- Abstract(参考訳): エンタープライズインテリジェンスプラットフォームは、さまざまなダウンストリームタスクを実行するために、多くのサードパーティベンダのログを統合する必要があります。
しかし、ベンダーのドキュメントはテスト時に利用できないことが多い。
ミスプレース、ミスマッチ、フォーマット不足、あるいは不完全で、スキーママッピングが難しい。
ラベル付き例やモデル重み更新を使わずに自己改善できる強化学習エージェントを提案する。
推論中、エージェント:
1)不明瞭なフィールドマッピングの試みを同定する。
2) 対象とする Web 検索クエリを生成して外部証拠を収集する。
3) 信頼に基づく報酬を反復的にマッピングを洗練させる。
この概念を実証するため、Microsoft Defender for Endpointログを共通スキーマに変換しました。
GPT-4oを用いてマッピング精度を56.4\%(LLMのみ)から72.73\%(RAG)に引き上げた。
同時に、専門家のレビューを必要とする低信頼度マッピングの数を85%削減しました。
この新しいアプローチは、将来的な業界の問題を解決するためのエビデンス駆動の透明な方法を提供し、より堅牢で説明責任があり、スケーラブルで、スケーラブルで、柔軟で、適応可能で、協調的なソリューションを実現する。
関連論文リスト
- Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - DS-Det: Single-Query Paradigm and Attention Disentangled Learning for Flexible Object Detection [39.56089737473775]
画像中のフレキシブルな数の物体を検出できるより効率的な変換器検出器DS-Detを提案する。
具体的には、デコーダモデリングのための新しい統合シングルクエリパラダイムを再構成し、導入する。
また,注意障害学習による簡易デコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-26T05:40:04Z) - Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision [20.09181711927194]
PathFinder-PRMは,新しい階層型,誤り認識型識別型PRMである。
PRMBenchでは、PathFinder-PRMが67.7の最先端PRMSコアを新たに達成し、3倍の少ないデータを使用しながら、以前の最高値(65.5)を上回った。
論文 参考訳(メタデータ) (2025-05-26T08:56:36Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Linking Cryptoasset Attribution Tags to Knowledge Graph Entities: An LLM-based Approach [4.348296766881638]
本稿では,帰属タグと知識グラフの概念を関連付けるために,Large Language Models (LLMs) に基づく新しい計算手法を提案する。
このアプローチは、F1スコアのベースラインメソッドを3つのパブリックな属性タグデータセットで37.4%向上させる。
本手法は属性タグの品質を高めるだけでなく,より信頼性の高い法医学的証拠を育成するための青写真としても機能する。
論文 参考訳(メタデータ) (2025-02-12T01:28:40Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。