論文の概要: Signals: Trajectory Sampling and Triage for Agentic Interactions
- arxiv url: http://arxiv.org/abs/2604.00356v1
- Date: Wed, 01 Apr 2026 01:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.77858
- Title: Signals: Trajectory Sampling and Triage for Agentic Interactions
- Title(参考訳): 信号: エージェントインタラクションのための軌道サンプリングとトリアージ
- Authors: Shuguang Chen, Adil Hafeez, Salman Paracha,
- Abstract要約: エージェント間相互作用をトリアージするための軽量な信号ベースフレームワークを提案する。
提案手法は,ライブインタラクションから,安価で広く適用可能な信号を計算し,軌道トリアージのための構造化属性としてアタッチする。
その結果, 信号を用いたサンプリングでは, フィルタリングでは74%, ランダムサンプリングでは54%と, 82%の情報化率が得られることがわかった。
- 参考スコア(独自算出の注目度): 1.6631602844999722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic applications based on large language models increasingly rely on multi-step interaction loops involving planning, action execution, and environment feedback. While such systems are now deployed at scale, improving them post-deployment remains challenging. Agent trajectories are voluminous and non-deterministic, and reviewing each one, whether through human review or auxiliary LLMs, is slow and cost-prohibitive. We propose a lightweight, signal-based framework for triaging agentic interaction trajectories. Our approach computes cheap, broadly applicable signals from live interactions and attaches them as structured attributes for trajectory triage, identifying interactions likely to be informative without affecting online agent behavior. We organize signals into a coarse-grained taxonomy spanning interaction (misalignment, stagnation, disengagement, satisfaction), execution (failure, loop), and environment (exhaustion), designed for computation without model calls. In a controlled annotation study on $τ$-bench, a widely used benchmark for tool-augmented agent evaluation, we show that signal-based sampling achieves an 82\% informativeness rate compared to 74\% for heuristic filtering and 54\% for random sampling, with a 1.52x efficiency gain per informative trajectory. The advantage is robust across reward strata and task domains, confirming that signals provide genuine per-trajectory informativeness gains rather than merely oversampling obvious failures. These results show that lightweight signals can serve as practical sampling infrastructure for agentic systems, and suggest a path toward preference data construction and post-deployment optimization.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントアプリケーションは、計画、アクション実行、環境フィードバックを含む多段階の相互作用ループにますます依存している。
このようなシステムは大規模にデプロイされているが、デプロイ後の改善は依然として難しい。
エージェント・トラジェクトリは自発的で非決定論的であり、人間によるレビューや補助的なLCMを通しても、それぞれをレビューすることは遅くてコストが抑えられる。
エージェント間相互作用をトリアージするための軽量な信号ベースフレームワークを提案する。
提案手法は,生きたインタラクションから,安価で広く適用可能な信号を計算し,それらを軌道トリアージの構造化属性としてアタッチする。
我々は、相互作用(相違、停滞、解離、満足)、実行(障害、ループ)、環境(実行)にまたがる粗い分類に信号を整理し、モデルコールなしで計算できるように設計する。
ツール拡張エージェント評価のための広く使われているベンチマークである$τ$-benchのアノテーション研究において、信号に基づくサンプリングは、ヒューリスティックフィルタリングでは74 %、ランダムサンプリングでは54 %、情報伝達軌道あたりでは1.22 倍の効率向上が得られることを示す。
利点は報奨層とタスク領域にまたがって堅牢であり、信号が明らかな失敗をオーバーサンプリングするだけでなく、軌道毎の真の情報性の向上をもたらすことを確認している。
これらの結果から,軽量信号はエージェントシステムの実用的なサンプリング基盤として機能し,好みデータ構築への道筋と展開後の最適化を提案する。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward [24.738836592075927]
本稿では, セマンティック情報獲得報酬による効果的な情報探索を動機付ける統合フレームワークを提案する。
7つの質問回答ベンチマークでの実験では、InfoReasonerは強力な検索強化ベースラインを一貫して上回っている。
我々の研究は、理論的に基礎を置き、検索を伴うエージェント推論へのスケーラブルな道を提供する。
論文 参考訳(メタデータ) (2026-01-31T18:15:50Z) - From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Network-Level Vehicle Delay Estimation at Heterogeneous Signalized Intersections [4.534054317956599]
本研究では,様々な交差点を横断する車両遅延を推定するためのドメイン適応(DA)フレームワークを提案する。
新たなDAモデルであるGradient Boosting with Balanced Weighting (GBBW)は、ターゲットドメインとの類似性に基づいてソースデータを重み付けする。
8つの最先端ML回帰モデルと7つのインスタンスベースのDA手法で性能を評価する。
論文 参考訳(メタデータ) (2025-10-01T05:19:50Z) - TraceMesh: Scalable and Streaming Sampling for Distributed Traces [51.08892669409318]
TraceMeshは、分散トレースのためのスケーラブルでストリーミングなサンプリングツールである。
以前は見つからなかったトレース機能を、統一的で合理化された方法で扱える。
TraceMeshは、サンプリング精度と効率の両方において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-06-11T06:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。