論文の概要: TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training
- arxiv url: http://arxiv.org/abs/2603.01714v1
- Date: Mon, 02 Mar 2026 10:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.82305
- Title: TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training
- Title(参考訳): TopoCurate:ツール・ユース・エージェント・トレーニングのためのインタラクション・トポロジーのモデル化
- Authors: Jinluan Yang, Yuxin Liu, Zhengyu Chen, Chengcheng Han, Yueqing Sun, Qi Gu, Hui Su, Xunliang Cai, Fei Wu, Kun Kuang,
- Abstract要約: 訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
- 参考スコア(独自算出の注目度): 53.93696896939915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training tool-use agents typically relies on outcome-based filtering: Supervised Fine-Tuning (SFT) on successful trajectories and Reinforcement Learning (RL) on pass-rate-selected tasks. However, this paradigm ignores interaction dynamics: successful trajectories may lack error recovery or exhibit redundancy, while pass rates fail to distinguish structurally informative tasks from trivial ones. We propose \textbf{TopoCurate}, an interaction-aware framework that projects multi-trial rollouts from the same task into a unified semantic quotient topology. By merging equivalent action-observation states, this projection transforms scattered linear trajectories into a structured manifold that explicitly captures how tool invocations and environmental responses drive the divergence between effective strategies and failure modes. Leveraging this representation, we introduce a dual-selection mechanism: for SFT, we prioritize trajectories demonstrating reflective recovery, semantic efficiency, and strategic diversity to mitigate covariate shift and mode collapse; for RL, we select tasks with high error branch ratios and strategic heterogeneity, maximizing gradient Signal-to-Noise Ratio to address vanishing signals in sparse-reward settings. Evaluations on BFCLv3 and Tau2 Bench show that TopoCurate achieves consistent gains of 4.2\% (SFT) and 6.9\% (RL) over state-of-the-art baselines. We will release the code and data soon for further investigations.
- Abstract(参考訳): トレーニングツール使用エージェントは一般的に、結果に基づくフィルタリングに依存している: 軌道を成功させるための監督された細調整(SFT)と、パスレート選択されたタスクに対する強化学習(RL)。
しかし、このパラダイムは相互作用のダイナミクスを無視している:成功軌道はエラー回復を欠いているか冗長性を示す可能性があるが、通過速度は構造的な情報的タスクと自明なタスクとを区別することができない。
我々は,同一タスクからのマルチリアルロールアウトを統一的なセマンティック商トポロジに投影するインタラクション対応フレームワークである‘textbf{TopoCurate} を提案する。
このプロジェクションは等価な動作・観測状態をマージすることにより、散在する線形軌跡を構造化多様体に変換し、ツールの呼び出しと環境応答が効果的な戦略と障害モードの分岐をいかに引き起こすかを明確に把握する。
この表現を活用して、SFTでは、共変量シフトとモード崩壊を軽減するために、反射的回復、セマンティック効率、戦略的多様性を示す軌道を優先し、RLでは、高いエラー分岐比と戦略的不均一性を持つタスクを選択し、勾配を最大化し、信号対雑音比を最大化し、スパース・リワード設定における消滅信号に対処する。
BFCLv3とTau2 Benchの評価から、TopoCurateは最先端のベースラインよりも4.2\%(SFT)と6.9\%(RL)の一貫したゲインを達成している。
さらなる調査のために、コードとデータをまもなくリリースします。
関連論文リスト
- GFRRN: Explore the Gaps in Single Image Reflection Removal [23.018215754935753]
単一画像の反射除去のためのギャップフリー反射除去ネットワーク(GFRRN)を提案する。
本研究では,まず,パラメータ効率のよい微調整(PEFT)戦略を採用し,トレーニングの方向性を調整する。
そして、ラベル生成装置は、合成データと実世界のデータの両方のリフレクションラベルを統合するように設計されている。
GFRRNの有効性を実証し,最先端SIRR法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-26T07:17:49Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文 参考訳(メタデータ) (2026-02-03T11:49:46Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:59:23Z) - Contrast & Compress: Learning Lightweight Embeddings for Short Trajectories [11.6132604160666]
トランスフォーマーエンコーダを応用して, 短い軌道の固定次元埋め込みを学習するための新しいフレームワークを提案する。
コントラスト学習パラダイムにおけるコサインとFFTに基づく類似度指標の影響を分析した。
Argoverse 2データセットに対する実験的な評価は、Cosine類似性目的によって形成された埋め込みが軌道のより優れたクラスタリングをもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-03T07:53:04Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Learning Invariant Representation via Contrastive Feature Alignment for
Clutter Robust SAR Target Recognition [10.993101256393679]
本稿ではコントラスト的特徴アライメント(Contrastive Feature Alignment, CFA)と呼ばれる手法を提案し, 頑健な認識のための不変表現を学習する。
CFAは、分類とCWMSEの損失を組み合わせて、モデルを共同で訓練する。
提案したCFAは、分類とCWMSE損失を併用してモデルをトレーニングし、不変対象表現の漸進的学習を可能にする。
論文 参考訳(メタデータ) (2023-04-04T12:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。