Fugu-MT 論文翻訳(概要): When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors

論文の概要: When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors

arxiv url: http://arxiv.org/abs/2604.21255v1
Date: Thu, 23 Apr 2026 03:48:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.290802
Title: When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors
Title（参考訳）: エージェントが同じに見えるとき:ツール使用行動における蒸留による類似性の定量化
Authors: Chenghao Yang, Yuning Zhang, Zhoufutu Wen, Tao Gong, Jiaheng Liu, Qi Chu, Nenghai Yu,
Abstract要約: 既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
参考スコア（独自算出の注目度）: 66.18091962164219
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model distillation is a primary driver behind the rapid progress of LLM agents, yet it often leads to behavioral homogenization. Many emerging agents share nearly identical reasoning steps and failure modes, suggesting they may be distilled echoes of a few dominant teachers. Existing metrics, however, fail to distinguish mandatory behaviors required for task success from non-mandatory patterns that reflect a model's autonomous preferences. We propose two complementary metrics to isolate non-mandatory behavioral patterns: \textbf{Response Pattern Similarity (RPS)} for verbal alignment and \textbf{Action Graph Similarity (AGS)} for tool-use habits modeled as directed graphs. Evaluating 18 models from 8 providers on $τ$-Bench and $τ^2$-Bench against Claude Sonnet 4.5 (thinking), we find that within-family model pairs score 5.9 pp higher in AGS than cross-family pairs, and that Kimi-K2 (thinking) reaches 82.6\% $S_{\text{node}}$ and 94.7\% $S_{\text{dep}}$, exceeding Anthropic's own Opus 4.1. A controlled distillation experiment further confirms that AGS distinguishes teacher-specific convergence from general improvement. RPS and AGS capture distinct behavioral dimensions (Pearson $r$ = 0.491), providing complementary diagnostic signals for behavioral convergence in the agent ecosystem. Our code is available at https://github.com/Syuchin/AgentEcho.
Abstract（参考訳）: モデル蒸留は、LLM剤の急速な進歩の背後にある主要な要因であるが、しばしば行動均質化につながる。多くの新興エージェントは、ほとんど同じ推論ステップと失敗モードを共有しており、少数の支配的な教師のエコーを蒸留している可能性がある。しかし、既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。本稿では,非命令的行動パターンを分離する2つの相補的指標を提案する。動詞アライメントのための \textbf{Response Pattern similarity (RPS) と,有向グラフとしてモデル化されたツール使用習慣のための \textbf{Action Graph similarity (AGS) である。 Claude Sonnet 4.5 に対して$τ$-Bench と $τ^2$-Bench の8つのプロバイダから18のモデルを評価すると、家族内モデルペアは、AGS においてクロスファミリーペアよりも5.9 pp高く、Kimi-K2 は 82.6\% $S_{\text{node}}$ と 94.7\% $S_{\text{dep}}$ に到達し、Anthropic 自身の Opus 4.1 を上回っている。制御された蒸留実験により、AGSは教師固有の収束と全般的な改善を区別することを確認した。 RPSとAGSは異なる行動次元(Pearson $r$ = 0.491)を捉え、エージェントエコシステムにおける行動収束の補完的な診断信号を提供する。私たちのコードはhttps://github.com/Syuchin/AgentEcho.comで利用可能です。

関連論文リスト

Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。 ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文参考訳（メタデータ） (2026-04-21T15:05:58Z)
TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文参考訳（メタデータ） (2026-03-25T05:27:03Z)
Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning [14.185814237633958]
Descent-Guided Policy Gradient (DG-PG) は、ノイズフリーなエージェントごとのガイダンス勾配を構築するフレームワークである。 DG-PGは、勾配分散を$(N)$から$mathcalO(1)$に減らし、協調ゲームの平衡を保ち、エージェント非依存のサンプル複雑性を実現する。
論文参考訳（メタデータ） (2026-02-23T17:45:08Z)
Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
From Features to Actions: Explainability in Traditional and Agentic AI Systems [8.859406164948718]
我々は、帰属に基づく説明とトレースに基づく診断を比較することによって、静的とエージェント的説明のギャップを埋める。以上の結果から,エージェント設定のためのトレースベースの診断は,常に動作の破壊を局所化することがわかった。
論文参考訳（メタデータ） (2026-02-06T16:34:29Z)
GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。 GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文参考訳（メタデータ） (2026-01-26T14:49:04Z)
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文参考訳（メタデータ） (2025-09-27T08:59:31Z)
Reliability, Embeddedness, and Agency: A Utility-Driven Mathematical Framework for Agent-Centric AI Adoption [0.0]
我々は,マルチステップタスクを実行するエージェント中心のAIシステムの採用を継続するための3つの公理を定式化する。我々は、崩壊するノベルティ用語と成長するユーティリティ用語の和として、採用をモデル化する。
論文参考訳（メタデータ） (2025-08-18T12:53:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。