論文の概要: When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents?
- arxiv url: http://arxiv.org/abs/2605.28224v1
- Date: Wed, 27 May 2026 09:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.939886
- Title: When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents?
- Title(参考訳): ツール利用LDMエージェントのマルチトラジェクトリ推論にメモリはいつ役立つのか?
- Authors: Xinzhe Li, Yaguang Tao,
- Abstract要約: ツール利用 LLM エージェントのための多軌道推論は、複数の推論試行を生成し、それらの中から選択する。
既存のクロストラジェクトリメモリメソッドは、それぞれ1つのタスクで1つの推論戦略で評価される。
本稿では,転送範囲と転送内容の抽象化という,2つの軸に沿ってメモリを分解する統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.48949373776636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-trajectory inference for tool-use LLM agents - generating multiple reasoning attempts and selecting among them - benefits from transferring knowledge across attempts so that later ones avoid the pitfalls of earlier ones. Existing cross-trajectory memory methods (trajectory-level reflection, atomic fact extraction, raw observation injection) are each evaluated under a single inference strategy on a single task, making it unclear whether reported gains reflect properties of the memory abstraction or of the inference method. We propose a unified framework that decomposes memory along two axes -- the scope of transfer (within an expansion vs. across trajectories) and the abstraction of the transferred content -- and evaluate four methods under three inference strategies (best-of-N, beam search, MCTS) on four tool-use benchmarks spanning SQL, knowledge-graph, and CLI environments, in a verifier-free setting that matches the deployment regime of practical agents. The experiment matrix identifies the inference method as a confound: the same memory method produces statistically distinct results under different inference strategies on the same examples. Reflection reaches significance only under MCTS (not under best-of-N); within-expansion injection (conditioning each candidate on prior siblings' outcomes) helps only diversity-starved beam search; and atomic fact extraction is accuracy-neutral but shortens trajectories by 19-26% on tasks with reusable environmental structure.
- Abstract(参考訳): ツール使用 LLM エージェントに対する多軌道推論 - 複数の推論テストを生成し、それらの中から選択する - は、テスト間で知識を伝達することで、後続のエージェントの落とし穴を避けることができる。
既存のトラジェクティブ・メモリ手法(軌道レベルのリフレクション、原子事実抽出、生の観察注入)は、それぞれ単一のタスク上で単一の推論戦略で評価され、報告されたゲインがメモリ抽象化の特性を反映するか、あるいは推論手法を反映しているかが不明確になる。
本稿では,SQL,ナレッジグラフ,CLI環境にまたがる4つのツール使用ベンチマークにおいて,3つの推論戦略(ベストオブN,ビームサーチ,MCTS)に基づく4つの手法を,実用的なエージェントの配置体制に適合する検証自由な設定で評価する,2つの軸に沿ってメモリを分解する統合フレームワークを提案する。
実験行列は、推論手法を共焦点として識別する:同じメモリ方式は、同じ例で異なる推論戦略の下で統計的に異なる結果を生成する。
反射はMCTS(Best-of-Nではない)の下でのみ重要となり、インサージインジェクション(先行兄弟の結果に対して各候補を条件付け)はダイバーシティスターベッドビームサーチにのみ有効であり、原子事実抽出は精度中立であるが、再利用可能な環境構造を持つタスクでは19-26%の軌道を短縮する。
関連論文リスト
- Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework [21.68420785280451]
メモリは大きな言語モデル(LLM)ベースのエージェントの中核モジュールとして出現する。
まず、ハイレベルの観点から、既存のエージェントメモリメソッドをすべて組み込んだ統合フレームワークを要約する。
次に,2つのよく知られたベンチマークにおいて,代表エージェントのメモリ手法を広範囲に比較し,全手法の有効性について検討する。
論文 参考訳(メタデータ) (2026-04-02T07:19:20Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文 参考訳(メタデータ) (2025-11-17T20:50:50Z) - Task-Specific Data Selection for Instruction Tuning via Monosemantic Neuronal Activations [19.25205110583291]
重要なボトルネックは、タスク固有のパフォーマンスを最大化するために、最も関連性の高いデータを選択することです。
既存のデータ選択アプローチには、不安定な影響に基づく方法や、より安定した分布アライメント方法が含まれる。
タスク関連データをよりよく識別するために、この分野に専用の類似度指標を導入します。
論文 参考訳(メタデータ) (2025-03-19T11:35:57Z) - Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - A Unified Approach Towards Active Learning and Out-of-Distribution Detection [49.334006405481375]
我々は、ALとOODの両方検出のための最初の統合ソリューションとして、SISOMを紹介した。
特徴空間距離メトリクスを活用することで、SISOMは、現在独立したタスクの強みを組み合わせて、両方を効果的に解決する。
ALでは、SISOMは他より優れ、3つのベンチマークでトップ1のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-18T17:02:57Z) - Spatial Cascaded Clustering and Weighted Memory for Unsupervised Person
Re-identification [32.95715593278961]
教師なしの人物再識別(re-ID)手法は、きめ細かい局所的コンテキストを利用して高い性能を達成する。
パートベース手法は, 様々なポーズによる不適応に苦しむ水平分割を通して, 局所的文脈を求める。
本稿では,これらの課題に対処するため,空間カスケードクラスタリングと重み付けメモリ(SCWM)手法を提案する。
SCWMは、メモリモジュールがハードサンプルマイニングとノイズ抑制のバランスを保ちながら、異なる人体部分のより正確なローカルコンテキストを解析、調整することを目的としている。
論文 参考訳(メタデータ) (2024-03-01T03:52:29Z) - 3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。
本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。
私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文 参考訳(メタデータ) (2022-11-17T07:04:53Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。