論文の概要: Bridging the Perception Gap: A Lightweight Coarse-to-Fine Architecture for Edge Audio Systems
- arxiv url: http://arxiv.org/abs/2601.15676v1
- Date: Thu, 22 Jan 2026 05:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.506777
- Title: Bridging the Perception Gap: A Lightweight Coarse-to-Fine Architecture for Edge Audio Systems
- Title(参考訳): 知覚ギャップのブリッジ:エッジオーディオシステムのための軽量で粗いアーキテクチャ
- Authors: Hengfan Zhang, Yueqian Lin, Hai Helen Li, Yiran Chen,
- Abstract要約: CoFi-Agentはエッジサーバとゲートウェイをターゲットにしたハイブリッドアーキテクチャである。
高速な局所認識を行い、不確実性が検出された場合にのみ条件付き法医学的洗練をトリガーする。
MMARのベンチマークでは、CoFi-Agentは精度を27.20%から53.60%に改善し、常にオンのパイプラインよりも精度と効率のトレードオフを実現している。
- 参考スコア(独自算出の注目度): 10.143590597259792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Audio-Language Models (Audio-LLMs) on edge infrastructure exposes a persistent tension between perception depth and computational efficiency. Lightweight local models tend to produce passive perception - generic summaries that miss the subtle evidence required for multi-step audio reasoning - while indiscriminate cloud offloading incurs unacceptable latency, bandwidth cost, and privacy risk. We propose CoFi-Agent (Tool-Augmented Coarse-to-Fine Agent), a hybrid architecture targeting edge servers and gateways. It performs fast local perception and triggers conditional forensic refinement only when uncertainty is detected. CoFi-Agent runs an initial single-pass on a local 7B Audio-LLM, then a cloud controller gates difficult cases and issues lightweight plans for on-device tools such as temporal re-listening and local ASR. On the MMAR benchmark, CoFi-Agent improves accuracy from 27.20% to 53.60%, while achieving a better accuracy-efficiency trade-off than an always-on investigation pipeline. Overall, CoFi-Agent bridges the perception gap via tool-enabled, conditional edge-cloud collaboration under practical system constraints.
- Abstract(参考訳): エッジインフラストラクチャにオーディオ言語モデル(Audio-LLMs)をデプロイすると、知覚深度と計算効率の持続的な緊張が表れる。
軽量なローカルモデルは受動的知覚を生み出す傾向があり、これは多段階のオーディオ推論に必要な微妙な証拠を見逃す一般的な要約である。
エッジサーバとゲートウェイを対象としたハイブリッドアーキテクチャであるCoFi-Agent(Tool-Augmented Coarse-to-Fine Agent)を提案する。
高速な局所認識を行い、不確実性が検出された場合にのみ条件付き法医学的洗練をトリガーする。
CoFi-Agentは、ローカルの7B Audio-LLM上で最初のシングルパスを実行し、その後クラウドコントローラが難しいケースをゲートし、時間的再リスニングやローカルASRのようなデバイス上のツールの軽量なプランを発行する。
MMARのベンチマークでは、CoFi-Agentは精度を27.20%から53.60%に改善し、常にオンのパイプラインよりも精度と効率のトレードオフを実現している。
全体として、CoFi-Agentは、実用的なシステム制約の下で、ツール対応の条件付きエッジクラウドコラボレーションを通じて、認識ギャップを埋める。
関連論文リスト
- AmbShield: Enhancing Physical Layer Security with Ambient Backscatter Devices against Eavesdroppers [69.56534335936534]
AmbShieldは自然分布のAmBDを利用して正規チャネルを強化し、eavesdropperを分解するAmBD支援PSSスキームである。
AmbShieldでは、AmBDはランダムに後方散乱して盗聴者の干渉を発生させるフレンドリーなジャマーとして利用され、受動的リレーは所望の信号を後方散乱して正当な装置の容量を高める。
論文 参考訳(メタデータ) (2026-01-14T20:56:50Z) - Information-Dense Reasoning for Efficient and Auditable Security Alert Triage [5.3761282240937796]
セキュリティオペレーションセンターは、分単位のサービスウィンドウの下で、巨大で異質なアラートストリームに直面します。
既存のソリューションは失敗する:シグネチャシステムは不安定で、異常なメソッドには動作性がなく、完全にクラウドでホストされたLLMはレイテンシ、コスト、プライバシの懸念を高める。
制約のある情報特化最適化を通じて、このトレードオフに対処するハイブリッドクラウドオンプレミスフレームワークであるAIDRを提案する。
論文 参考訳(メタデータ) (2025-12-09T01:57:24Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - CoSense-LLM: Semantics at the Edge with Cost- and Uncertainty-Aware Cloud-Edge Cooperation [0.0]
CoSense-LLMは、連続したマルチモーダルセンサストリームをコンパクトなセマンティックトークンに変換するエッジファーストフレームワークである。
システムは、ページ化またはストリーミングKVキャッシュ、Flashスタイルのカーネル、投機的復号化、量子化されたLoRAアダプタなど、モダンなサービス最適化で動作する。
論文 参考訳(メタデータ) (2025-10-22T15:16:56Z) - Adaptive Learning for IRS-Assisted Wireless Networks: Securing Opportunistic Communications Against Byzantine Eavesdroppers [7.256056777973974]
ビザンチン耐性スペクトルセンシングとセキュアインテリジェント反射面(IRS)のための共同学習フレームワークを提案する。
本研究では,局所曲率の緩やかな速度で,予測更新と証明可能なサブ線形収束を提供する拡張ラグランジアン交互化アルゴリズムを開発した。
多様なネットワーク条件のシミュレーションでは、敵攻撃時の固定偽アラームレートの検出確率が高く、正直なユーザに対する総和MSEの大幅な削減、盗聴信号の強い抑制、高速収束が示される。
論文 参考訳(メタデータ) (2025-08-11T17:28:25Z) - Multi-agent Auditory Scene Analysis [0.0]
聴覚シーン分析(ASA)は、音源の位置、分離、分類の3つの主要なタスクを実行することで、音環境から情報を取得することを目的としている。
これらのタスクを実行すると、全体のレスポンス時間がリニアに増加し、最後のタスクは最初のタスク(ロケーション)のエラーに非常に敏感になる。
タスクを並列に実行し、各タスク間のフィードバックループでローカルエラーを補うためのマルチエージェントアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-03T16:16:46Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。