論文の概要: GRAIL: A Deep-Granularity Hybrid Resonance Framework for Real-Time Agent Discovery via SLM-Enhanced Indexing
- arxiv url: http://arxiv.org/abs/2605.02489v1
- Date: Mon, 04 May 2026 11:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.262961
- Title: GRAIL: A Deep-Granularity Hybrid Resonance Framework for Real-Time Agent Discovery via SLM-Enhanced Indexing
- Title(参考訳): GRAIL: SLMインデクシングによるリアルタイムエージェント発見のためのディープグラニティハイブリッド共振フレームワーク
- Authors: Jinliang Xu,
- Abstract要約: textbfGRAIL(Granular Resonance-based Agent/AI Link)は400ms以下の発見遅延を実現するための新しいフレームワークである。
GRAILは、LLMパーシングベースラインと比較して、textbf79$times以上のエンドツーエンド発見のレイテンシを低減すると同時に、Recall@10の従来のベクター検索よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the ecosystem of Large Language Model (LLM)-based agents expands rapidly, efficient and accurate Agent Discovery becomes a critical bottleneck for large-scale multi-agent collaboration. Existing approaches typically face a dichotomy: either relying on heavy-weight LLMs for intent parsing, leading to prohibitive latency (often exceeding 30 seconds), or using monolithic vector retrieval that sacrifices semantic precision for speed. To bridge this gap, we propose \textbf{GRAIL} (Granular Resonance-based Agent/AI Link), a novel framework achieving sub-400ms discovery latency without compromising accuracy. GRAIL introduces three key innovations: (1) \textbf{SLM-Enhanced Prediction}, replacing the generalized LLM parser with a specialized, fine-tuned Small Language Model (SLM) for millisecond-level capability tag prediction; (2) \textbf{Pseudo-Document Expansion}, augmenting agent descriptions with synthetic queries to enhance semantic density for robust dense retrieval; and (3) \textbf{MaxSim Resonance}, a fine-grained matching mechanism computing maximum similarity between user queries and discrete agent usage examples, effectively mitigating semantic dilution. Validated on \textbf{AgentTaxo-9K}, our new large-scale dataset of 9,240 agents, GRAIL reduces end-to-end discovery latency by over \textbf{79$\times$} compared to LLM-parsing baselines, while significantly outperforming traditional vector search in Recall@10. This framework offers a scalable, industrial-grade solution for the real-time ``Internet of Agents."
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントのエコシステムが急速に拡大するにつれて、エージェント発見は大規模マルチエージェントコラボレーションにおいて重要なボトルネックとなる。
既存のアプローチは、インテント解析に重み付けのLLMに頼るか(30秒を超える場合が多い)、あるいは速度のセマンティック精度を犠牲にするモノリシックベクトル検索を使用するかのどちらかである。
このギャップを埋めるため,400ms未満の発見遅延を実現する新しいフレームワークであるtextbf{GRAIL} (Granular Resonance-based Agent/AI Link) を提案する。
GRAILは、ミリ秒レベルの機能タグ予測のために、一般化されたLLMパーサを特殊な微調整された小言語モデル(SLM)に置き換える、(2)高密度検索のためのセマンティック密度を高めるために、合成クエリでエージェント記述を拡大する、(3) ユーザクエリと離散エージェント使用例の最大類似性を計算する、きめ細かいマッチング機構である、セマンティックダイスを効果的に軽減する、という3つの重要なイノベーションを紹介している。
新しい9,240のエージェントからなる大規模データセットである‘textbf{AgentTaxo-9K}’で検証されたGRAILは、LLMパーシングベースラインに比べて、‘textbf{79$\times$}’以上のエンドツーエンドの発見レイテンシを低減します。
このフレームワークは、リアルタイムの ``エージェントのインターネット' に対して、スケーラブルで産業レベルのソリューションを提供する。
です。
関連論文リスト
- InfoSeeker: A Scalable Hierarchical Parallel Agent Framework for Web Information Seeking [39.22757710468795]
ほぼ分解可能性の原理に基づく階層型フレームワークであるフレームワークを,戦略的textitHost,複数textitManagers,並列textitWorkersを含む。
マネージャ層でのアグリゲーションとリフレクションのメカニズムを活用することで、我々のフレームワークは飽和やエラーの伝播を防ぐために厳密なコンテキスト分離を実行します。
2つの補完ベンチマークによる評価は、効率(3~5倍のスピードアップ)と有効性の両方を示し、WideSearch-enで8.4%、BrowseComp-zhで52.9%の精度を達成した。
論文 参考訳(メタデータ) (2026-04-03T11:19:17Z) - SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Efficient Mixture-of-Agents Serving via Tree-Structured Routing, Adaptive Pruning, and Dependency-Aware Prefill-Decode Overlap [15.352230356342366]
混合エージェント(MoA)推論は、密度の高いエージェント間通信と低いハードウェア利用に悩まされる。
本稿では,アルゴリズム・システムの共同設計を通じて,これらのボトルネックをターゲットとしたサービス設計を提案する。
論文 参考訳(メタデータ) (2025-12-19T23:06:58Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - FHE-Agent: Automating CKKS Configuration for Practical Encrypted Inference via an LLM-Guided Agentic Framework [23.668677510478446]
本稿では、専門家推論プロセスを自動化するエージェントフレームワークであるFHE-Agentを紹介する。
探索をグローバルパラメータ選択と階層的ボトルネック修復に分解する。
検索戦略よりも精度が良く、レイテンシも低い。
論文 参考訳(メタデータ) (2025-11-23T23:26:21Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [13.948608558319307]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。
エージェントフレームワークは繰り返しの推論要求を送信し、その結果、長く予測可能な計算結果が得られる。
本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。