論文の概要: How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
- arxiv url: http://arxiv.org/abs/2605.28840v1
- Date: Thu, 23 Apr 2026 16:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.029846
- Title: How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
- Title(参考訳): LLM剤は如何に一貫性があるか? 多段工具搬送パイプラインの挙動再現性の測定
- Authors: Abel Yagubyan,
- Abstract要約: ツールコール機能を備えた大規模言語モデル(LLM)エージェントは、運用システムにますますデプロイされている。
本研究では,複数段階のツールコールエージェントにおける行動整合性に関する系統的研究を行い,エージェントが同一のツールを選択するか,同じ引数で同じツールを選択するかを,繰り返し同じ呼び出しで測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents with tool-calling capabilities are increasingly deployed in production systems, yet a fundamental reliability question remains under-explored: does the same agent behave the same way twice? We present a systematic empirical study of behavioral consistency in multi-step tool-calling agents, measuring whether agents select the same tools, in the same order, with the same arguments, across repeated identical invocations. Unlike prior work on consistency in ReAct-style agents(search-only, free-text actions), we study the richer setting of structured tool-calling interfaces with typed parameters and consequential side effects.
- Abstract(参考訳): ツールコール機能を備えた大規模言語モデル(LLM)エージェントが本番システムにますますデプロイされているが、基本的な信頼性に関する疑問は未解決のままである。
本研究では,複数段階のツールコールエージェントにおける行動整合性に関する系統的研究を行い,エージェントが同一のツールを選択するか,同じ引数で同じツールを選択するかを,繰り返し同じ呼び出しで測定する。
ReActスタイルエージェント(検索専用、フリーテキストアクション)の一貫性に関する以前の研究とは異なり、型付きパラメータと連続的な副作用を持つ構造化ツール呼び出しインタフェースのよりリッチな設定について検討する。
関連論文リスト
- Is Grep All You Need? How Agent Harnesses Reshape Agentic Search [0.7199239000118145]
本稿では,2つの実験にまとめられた実証的研究を報告する。
実験1では、Chは一般にベクトル検索よりも精度が高いことを示した。
全体的なスコアは、基礎となる会話データが同じであっても、どのハーネスとツール呼び出しスタイルが使用されるかに強く依存する。
論文 参考訳(メタデータ) (2026-05-14T17:58:41Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Self-Supervised Borrowing Detection on Multilingual Wordlists [0.0]
本稿では,多言語単語リストにおける借用語検出に対する完全自己教師型アプローチを提案する。
この手法は,大域対応モデルに基づくPMI類似度と,音声特徴ベクトルに基づいて訓練された軽量コントラスト成分の2つの情報源を組み合わせる。
論文 参考訳(メタデータ) (2025-12-01T14:20:03Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。