論文の概要: BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems
- arxiv url: http://arxiv.org/abs/2605.22866v1
- Date: Tue, 19 May 2026 19:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.006744
- Title: BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems
- Title(参考訳): BOHM: 複合AIシステムにおけるゼロコスト階層的属性
- Authors: Joss Armstrong,
- Abstract要約: 複合AIシステムは、特殊コンポーネントの階層を通してタスクをルーティングする。
本稿では,すでに維持している経路重みから直接階層的帰属木を抽出するBOHMを紹介する。
BOHMは効率、単調性、対称性、弱抑制を満足するが、シャプリーの付加性は満たさない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compound AI systems route tasks through hierarchies of specialised components. Attribution is dominated by Shapley-based methods (SHAP), which decompose a coalition value function into per-component marginal contributions and require evaluation of the system on arbitrary component subsets. That requirement fails for third-party APIs, opaque endpoints, and agentic orchestrators that concentrate routing on a few tools, leaving most coalitions un-evaluable from the deployed orchestrator. We introduce BOHM, which extracts a hierarchical attribution tree directly from the routing weights such systems already maintain: leaf attribution is the path product of root-to-leaf routing weights; level-k attribution is the induced distribution over depth-k nodes. The method has zero marginal cost, requires no access to component internals, and provides multi-resolution attribution at every level simultaneously, which flat methods cannot offer at any evaluation budget. BOHM and SHAP answer different questions and converge when the deployed router routes near-optimally. On 18 LLMs in a 3-level hierarchy over 880 LiveCodeBench problems, BOHM yields Kendall tau=0.928; SHAP reaches tau=0.980 at 9,000x more coalition evaluations per seed. On a 5-driver, 7-benchmark agentic study (35 cells, complete coverage), drivers concentrate routing on a single tool (top-share median 0.65), and cell-level tau(BOHM,SHAP) is predicted by whether the driver's top pick is the empirically best tool (mean +0.22 vs ~+0.01). On a US Census hierarchy (475 leaves, 4 levels), BOHM recovers ground-truth rankings at every level (tau up to 0.722). BOHM satisfies efficiency, monotonicity, symmetry, and weak suppression but not Shapley's additivity. It is best understood as a complementary primitive: a multi-resolution decomposition computable wherever routing state exists, whose disagreement with Shapley is itself diagnostic.
- Abstract(参考訳): 複合AIシステムは、特殊コンポーネントの階層を通してタスクをルーティングする。
属性はShapley-based method (SHAP) によって支配されており、これは連立値関数をコンポーネントごとの限界貢献に分解し、任意のコンポーネントサブセット上でシステムの評価を必要とする。
この要件は、サードパーティのAPI、不透明なエンドポイント、いくつかのツールにルーティングを集中するエージェントオーケストレータに失敗する。
葉帰属はルート・ツー・リーフの経路重みの経路積であり、レベル-k帰属は深さ-kノード上の誘導分布である。
この手法は限界費用をゼロとし、部品内部へのアクセスを必要とせず、任意の評価予算でフラットメソッドが提供できないような、全てのレベルで多重解像度の属性を提供する。
BOHMとSHAPは異なる質問に答え、デプロイされたルータがほぼ最適にルートするときに収束する。
880 LiveCodeBench問題に対する3レベル階層の18 LLMでは、BOHMはKendall tau=0.928となり、SHAPはタウ=0.980に達した。
5- Driver, 7-benchmark agentic study(35細胞、全カバレッジ)では、ドライバが単一ツール(トップシェア中央値0.65)のルーティングに集中し、ドライバのトップピックが経験上最高のツールであるかどうか(平均+0.22 vs ~+0.01)によってセルレベルタウ(BOHM,SHAP)を予測する。
アメリカ合衆国国勢調査の階層(475の葉、4レベルの葉)では、BOHMは各レベル(0.722)の地道ランクを回復する。
BOHMは効率、単調性、対称性、弱抑制を満足するが、シャプリーの付加性は満たさない。
多分解分解可能な計算可能なルーティング状態が存在し、Shapleyとの相違はそれ自身診断である。
関連論文リスト
- Orchard: An Open-Source Agentic Modeling Framework [124.68499958175111]
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
論文 参考訳(メタデータ) (2026-05-14T16:35:12Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding [4.738949927143789]
LLMエージェントシステムは、コンポーネント(計画、ツール、メモリ、自己回帰、検索)を積み重ねて構築される
We run a full factorial experiment on all 25=32 subsets of five components on HotpotQA and GSM8K with Llama-3.1-8B/70B conditions。
シングルツールエージェントのHotpotQAは、All-Inを32%上回る(F1 0.233 vs 0.177, p23)。
以上の結果から,最大装備エージェントは相互作用認識分析によりサブセット選択に置き換えるべきであることが示唆された。
論文 参考訳(メタデータ) (2026-05-07T06:01:43Z) - Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score [14.579552536669217]
一般データ保護規制法に準拠するためには、ビジョンランゲージモデル(VLM)のアンラーニングが必要である。
マルチモーダル・アンラーニングにおける信頼性の最初の研究について述べる。
統一品質スコア(Unified Quality Score, UQS)は, 各計量のスピアマン相関と距離の関係から得られる重みを持つ計量である。
論文 参考訳(メタデータ) (2026-05-04T04:13:00Z) - Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality [0.0]
学習したセントロイドに対するコサイン類似性ルーティングを用いたスパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャを構築した。
ルーティングトポロジがパープレキシティ(PPL)を決定できないことが分かりました。
トポロジレベルの等質性と共存するエキスパートレベルと因果制御性について、共用論文で検討する。
論文 参考訳(メタデータ) (2026-04-15T21:02:02Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - CASSPR: Cross Attention Single Scan Place Recognition [43.68230981047338]
点雲に基づく位置認識(LiDAR)は、自律ロボットや自動運転車にとって重要なコンポーネントである。
現在のSOTA性能は、点ベースまたはボクセルベースの構造を用いて蓄積したLiDARサブマップ上で達成される。
クロスアテンショントランスを用いた点ベースおよびボクセルベースアプローチの融合手法としてCASSPRを提案する。
論文 参考訳(メタデータ) (2022-11-22T19:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。