論文の概要: One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries
- arxiv url: http://arxiv.org/abs/2603.11545v1
- Date: Thu, 12 Mar 2026 05:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.901205
- Title: One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries
- Title(参考訳): ひとつのスーパーバイザ、多くのモダリティ - 自律的なクエリのための適応的なツールオーケストレーション
- Authors: Mayank Saini Arit Kumar Bishwas,
- Abstract要約: 我々は、テキスト、画像、オーディオ、ビデオ、文書のモダリティにまたがる特殊なツールをコーディネートする、自律マルチモーダルクエリ処理のためのエージェントAIフレームワークを提案する。
中央スーパーバイザは動的にユーザクエリを分解し、サブタスクをモダリティに適したツールに委譲する。
テキストのみのクエリでは、このフレームワークはRouteLLM経由で学習したルーティングを使用し、非テキストパスはSLMによるモダリティ分解を使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an agentic AI framework for autonomous multimodal query processing that coordinates specialized tools across text, image, audio, video, and document modalities. A central Supervisor dynamically decomposes user queries, delegates subtasks to modality-appropriate tools (e.g., object detection, OCR, speech transcription), and synthesizes results through adaptive routing strategies rather than predetermined decision trees. For text-only queries, the framework uses learned routing via RouteLLM, while non-text paths use SLM-assisted modality decomposition. Evaluated on 2,847 queries across 15 task categories, our framework achieves 72% reduction in time-to-accurate-answer, 85% reduction in conversational rework, and 67% cost reduction compared to the matched hierarchical baseline while maintaining accuracy parity. These results demonstrate that intelligent centralized orchestration fundamentally improves multimodal AI deployment economics.
- Abstract(参考訳): 我々は、テキスト、画像、オーディオ、ビデオ、文書のモダリティにまたがる特殊なツールをコーディネートする、自律マルチモーダルクエリ処理のためのエージェントAIフレームワークを提案する。
中央スーパーバイザは、ユーザクエリを動的に分解し、サブタスクをモダリティに適したツール(例えば、オブジェクト検出、OCR、音声書き起こし)に委譲し、所定の決定木ではなく適応的なルーティング戦略によって結果を合成する。
テキストのみのクエリでは、このフレームワークはRouteLLM経由で学習したルーティングを使用し、非テキストパスはSLMによるモダリティ分解を使用する。
15のタスクカテゴリにまたがる2,847のクエリを評価した結果,時間と回答の精度が72%低下し,会話の再作業が85%低下し,一致した階層ベースラインに比べて67%のコスト削減を実現した。
これらの結果は、インテリジェントな中央集権的なオーケストレーションが、マルチモーダルAIデプロイメント経済を根本的に改善することを示している。
関連論文リスト
- Task-Aware LoRA Adapter Composition via Similarity Retrieval in Vector Databases [3.4869850730657728]
本稿では,ベクトルデータベースにおける類似性検索を利用した動的LoRAアダプタ合成のための新しいフレームワークを提案する。
提案手法は,22種類のコモンセンス推論,質問応答,自然言語推論,感情分析などの学習例を組み込んで,タスク認識ベクトルデータベースを構築する。
我々のフレームワークは、追加のレトリバートレーニングを必要とせず、凍結埋め込みで動作し、効率的で解釈可能なアダプタ構成を可能にする。
論文 参考訳(メタデータ) (2026-02-01T22:20:04Z) - Efficient Multimodal Planning Agent for Visual Question-Answering [67.26245301307539]
本稿では,MRAGパイプラインを動的に分解してVQAタスクを解くマルチモーダル計画エージェントを訓練する手法を提案する。
本実験では, 従来の手法に比べて探索時間を60%以上削減し, 余剰計算の削減に役立てることができた。
論文 参考訳(メタデータ) (2026-01-28T14:58:59Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Planning Agents on an Ego-Trip: Leveraging Hybrid Ego-Graph Ensembles for Improved Tool Retrieval in Enterprise Task Planning [0.0]
本稿では,ツール間のセマンティックな関係と機能的依存関係をキャプチャする,知識グラフに基づくツール検索フレームワークを提案する。
検索アルゴリズムは1-hop egoツールグラフのアンサンブルを利用して,ツール間の直接的および間接的な接続をモデル化する。
その結果,ツールグラフに基づく手法は,マイクロアベレージ・コンプリート・リコール・メトリックにおいて91.85%のツールカバレッジを実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-07T22:41:12Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - Compliance Brain Assistant: Conversational Agentic AI for Assisting Compliance Tasks in Enterprise Environments [2.8724171056550256]
Compliance Brain Assistant (CBA) は、企業環境における人員の日々のコンプライアンスタスクの効率を高めるために設計された、対話型のエージェントAIアシスタントである。
応答品質とレイテンシのバランスを良くするために,FastTrackモードとFullAgenticモードをインテリジェントに選択できるユーザクエリルータを設計する。
論文 参考訳(メタデータ) (2025-07-23T07:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。