論文の概要: Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
- arxiv url: http://arxiv.org/abs/2601.15120v1
- Date: Wed, 21 Jan 2026 15:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.439996
- Title: Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
- Title(参考訳): 地上からの創発:リアルコールを仮想軌道に誘導するツール利用エージェントの意図的逸脱に対処する
- Authors: Qian Xiong, Yuekai Huang, Yujia Zheng, Tianhao Li, Ziyou Jiang, Zhiyuan Chang, Zhaoyang Li, Huanxiang Feng, Mingyang Li,
- Abstract要約: 意図のずれを軽減するために考案された「リアル・トゥ・ヴァーチャル」法。
RISE(Real-to-Virtual)は,意図の偏差を緩和する手法である。
- 参考スコア(独自算出の注目度): 22.825818628788948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have advanced tool-using agents for real-world applications, yet they often lead to unexpected behaviors or results. Beyond obvious failures, the subtle issue of "intent deviation" severely hinders reliable evaluation and performance improvement. Existing post-training methods generally leverage either real system samples or virtual data simulated by LLMs. However, the former is costly due to reliance on hand-crafted user requests, while the latter suffers from distribution shift from the real tools in the wild. Additionally, both methods lack negative samples tailored to intent deviation scenarios, hindering effective guidance on preference learning. We introduce RISE, a "Real-to-Virtual" method designed to mitigate intent deviation. Anchoring on verified tool primitives, RISE synthesizes virtual trajectories and generates diverse negative samples through mutation on critical parameters. With synthetic data, RISE fine-tunes backbone LLMs via the two-stage training for intent alignment. Evaluation results demonstrate that data synthesized by RISE achieve promising results in eight metrics covering user requires, execution trajectories and agent responses. Integrating with training, RISE achieves an average 35.28% improvement in Acctask (task completion) and 23.27% in Accintent (intent alignment), outperforming SOTA baselines by 1.20--42.09% and 1.17--54.93% respectively.
- Abstract(参考訳): LLMは、現実世界のアプリケーションのための高度なツール利用エージェントを持っているが、しばしば予期せぬ振る舞いや結果をもたらす。
の微妙な問題は、信頼性の高い評価とパフォーマンス改善を著しく妨げます。
既存のポストトレーニング手法は、通常、実システムサンプルまたはLLMでシミュレートされた仮想データを利用する。
しかし、後者は手作りのユーザーリクエストに頼っているためコストがかかる。
さらに、どちらの手法にも意図的偏差シナリオに適した負のサンプルが欠如しており、嗜好学習の効果的な指導を妨げている。
RISE(Real-to-Virtual)は,意図の偏差を緩和する手法である。
検証されたツールプリミティブに基づいて、RISEは仮想軌跡を合成し、臨界パラメータの突然変異を通じて多様な負のサンプルを生成する。
合成データにより、RISEはインテントアライメントのための2段階のトレーニングを通じて、微細な背骨LPMを作製した。
RISEによって合成されたデータは,ユーザ要求,実行軌跡,エージェント応答を含む8つの指標で有望な結果が得られることを示す。
RISEはトレーニングと統合し、平均35.28%のAcctask(タスク完了)と23.27%のAccintent(インテントアライメント)を達成し、SOTAベースラインをそれぞれ1.20--42.09%、そして1.17-54.93%で上回っている。
関連論文リスト
- AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - RESample: A Robust Data Augmentation Framework via Exploratory Sampling for Robotic Manipulation [35.01431111972725]
VLA(Vision-Language-Action Model)は、模倣学習を通じて複雑なロボット操作タスクにおいて顕著な性能を示す。
探索サンプリングにより,RESample という自動 OOD データ拡張フレームワークを提案する。
LIBEROベンチマークと実世界のロボット操作タスクについて広範な実験を行い、resampleがVLAモデルの安定性と一般化能力を一貫して改善することを実証した。
論文 参考訳(メタデータ) (2025-10-20T15:21:12Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Fraud Detection Using Optimized Machine Learning Tools Under Imbalance
Classes [0.304585143845864]
機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を保証するために不可欠である。
本稿では,4つの最先端ML手法,すなわちロジスティック回帰,決定木,ランダム森林,極端な勾配上昇について検討する。
フィッシングサイトURLとクレジットカード不正取引データセットは、元のデータに基づいてトレーニングされた極端な勾配が、信頼できるパフォーマンスを示していることを示している。
論文 参考訳(メタデータ) (2022-09-04T15:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。