論文の概要: Agentic Performance at the Edge: Insights from Benchmarking
- arxiv url: http://arxiv.org/abs/2605.10384v1
- Date: Mon, 11 May 2026 11:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.766081
- Title: Agentic Performance at the Edge: Insights from Benchmarking
- Title(参考訳): Edgeにおけるエージェントパフォーマンス - ベンチマークからの検討
- Authors: Shiqiang Wang, Herbert Woisetschläger,
- Abstract要約: モデルのサイズがメモリ、電力、レイテンシの予算によって制限されている場合、エージェントタスクの品質がどれだけ失われるかを調査する。
私たちの中核的な発見は、エッジエージェントの品質はパラメータカウントの単純な機能ではないということです。ロバストなデプロイメントは、モデル選択とツールワークフローの共同設計に依存します。
- 参考スコア(独自算出の注目度): 13.571477369653143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic artificial intelligence (AI) is a natural fit for Internet of Things (IoT) and edge systems, but edge deployments are often constrained to models around 8 billion parameters or smaller. An important question is: How much agentic-task quality is lost when model size is constrained by memory, power, and latency budgets? To address this question, in this paper, we provide an initial empirical study considering edge-focused model scaling, general-purpose versus coder-oriented model effects, and tool-enabled execution under a fixed protocol. We introduce a domain-conditioned evaluation methodology, an implementation-grounded analysis of model-tool interactions, practical guidance for model selection under constraints, and an analysis of failure modes that reveals distinct semantic versus execution failure patterns across model families. Our core finding is that edge-agent quality is not a simple function of parameter count. Robust deployment depends on the joint design of model choice and tool workflow. Domain-conditioned analysis reveals Pareto fronts in the accuracy-latency space that can guide strategy selection based on operational priorities.
- Abstract(参考訳): エージェント人工知能(AI)はIoT(Internet of Things)とエッジシステムに自然に適合するが、エッジデプロイメントは80億のパラメータ以上のモデルに制約されることが多い。
モデルのサイズがメモリ、電力、レイテンシの予算によって制限されている場合、エージェントタスクの品質はどの程度失われるのか?
そこで本研究では,エッジ指向モデルスケーリング,汎用対コーダ指向モデルエフェクト,固定プロトコルによるツール対応実行などを考慮した実証的研究を行った。
本稿では,ドメイン条件付き評価手法,モデルツール間相互作用の具体的解析,制約下でのモデル選択の実践的ガイダンス,モデルファミリ間のセマンティクスと実行障害パターンの相違を明らかにする障害モードの解析を紹介する。
私たちの中核となる発見は、エッジエージェントの品質はパラメータカウントの単純な機能ではないということです。
ロバストなデプロイメントは、モデル選択とツールワークフローの共同設計に依存します。
ドメイン条件分析により、Paretoは、運用上の優先度に基づいて戦略選択をガイドできる精度-レイテンシの領域における最前線を明らかにしている。
関連論文リスト
- Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Exploring Cross-model Neuronal Correlations in the Context of Predicting Model Performance and Generalizability [2.6708879445664584]
本稿では,新しいモデルを用いたモデルの性能評価手法を提案する。
提案手法は,1つのネットワーク内の各ニューロンに対して,類似の出力を生成する他のネットワークにニューロンが存在するかどうかを判定することにより相関性を評価する。
論文 参考訳(メタデータ) (2024-08-15T22:57:39Z) - Characterizing Disparity Between Edge Models and High-Accuracy Base Models for Vision Tasks [5.081175754775484]
XDELTAは、高精度ベースモデルと計算効率が良いが低精度エッジモデルの違いを説明する、説明可能な新しいAIツールである。
我々は、XDELTAのモデル不一致を説明する能力をテストするための総合的な評価を行い、120万以上の画像と24のモデルを使用し、6人の参加者による実世界の展開を評価する。
論文 参考訳(メタデータ) (2024-07-13T22:05:58Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。