論文の概要: Collaborative Edge-to-Server Inference for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.16349v1
- Date: Thu, 18 Dec 2025 09:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.001742
- Title: Collaborative Edge-to-Server Inference for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための協調型エッジ・ツー・サーバ推論
- Authors: Soochang Song, Yongjune Kim,
- Abstract要約: 視覚言語モデル(VLM)のための協調型エッジ・ツー・サーバ推論フレームワークを提案する。
提案手法は,推測精度を維持しながら通信コストを大幅に削減する。
複数のVLMアーキテクチャを対象とした実験により,提案手法は推論精度を維持しつつ通信コストを大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 6.0719646505753895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a collaborative edge-to-server inference framework for vision-language models (VLMs) that reduces the communication cost while maintaining inference accuracy. In typical deployments, visual data captured at edge devices (clients) is transmitted to the server for VLM inference. However, resizing the original image (global image) to match the vision encoder's input resolution often discards fine-grained details, leading to accuracy degradation. To overcome this limitation, we design a two-stage framework. In the first stage, the server performs inference on the global image and identifies a region of interest (RoI) using the VLM's internal attention. The min-entropy of the output tokens is then computed as a confidence measure to determine whether retransmission is required. If the min-entropy exceeds a predefined threshold, the server requests the edge device to send a detail-preserved local image of the RoI. The server then refines its inference by jointly leveraging the global and local images. This selective retransmission strategy ensures that only essential visual content is transmitted. Experiments across multiple VLM architectures show that the proposed framework significantly reduces communication cost while maintaining inference accuracy.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)のための協調型エッジ・ツー・サーバ推論フレームワークを提案する。
一般的なデプロイメントでは、エッジデバイス(クライアント)でキャプチャされた視覚データは、VLM推論のためにサーバに送信される。
しかし、視覚エンコーダの入力解像度に合うように元の画像(グローバル画像)をリサイズすると、細かな詳細がなくなり、精度が低下する。
この制限を克服するために、我々は2段階のフレームワークを設計する。
第1段階では、サーバは、グローバルイメージの推論を行い、VLMの内部注意を用いて関心領域(RoI)を特定する。
次に、出力トークンのミニエントロピーを信頼度として計算し、再送信が必要かどうかを決定する。
minエントロピーが予め定義された閾値を超えた場合、サーバはエッジデバイスにRoIの詳細な保存されたローカルイメージを送信するよう要求する。
サーバは、グローバルイメージとローカルイメージを併用することにより、推論を洗練する。
この選択的な再送信戦略は、重要な視覚コンテンツだけが送信されることを保証する。
複数のVLMアーキテクチャを対象とした実験により,提案手法は推論精度を維持しつつ通信コストを大幅に削減することを示した。
関連論文リスト
- RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network [65.01521002836611]
本稿では,これらの制約を解決するために,並列で統一されたセグメンテーション・フレームワークであるクロスビューセマンティック・インタラクション・ネットワーク(CSINet)を提案する。
関心の対象を観察する際の人間の行動によって動機づけられたネットワークは、遠隔および近距離からの視覚的手がかりを編成し、相乗的予測を行う。
すべてのエンコーディングステージでは、Cross-View Window-attention Module(CVWin)を使用して、グローバルおよびローカルセマンティクスをクローズビューおよびリモートビューブランチ機能に補完する。
論文 参考訳(メタデータ) (2025-08-02T11:57:56Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - DDU-Net: A Domain Decomposition-Based CNN for High-Resolution Image Segmentation on Multiple GPUs [46.873264197900916]
ドメイン分解に基づくU-Netアーキテクチャを導入し、入力イメージを重複しないパッチに分割する。
空間コンテキストの理解を高めるために、パッチ間情報交換を容易にするための通信ネットワークが追加される。
その結果、この手法は、パッチ間通信のない同一ネットワークと比較して、IoU(Universal over Union)スコアよりも2~3,%高い交点を達成できることが判明した。
論文 参考訳(メタデータ) (2024-07-31T01:07:21Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Attention-aware Semantic Communications for Collaborative Inference [14.111401985496625]
本稿では,エッジ推論分野におけるコミュニケーション効率のよい協調推論フレームワークを提案する。
我々のフレームワークはエッジデバイス上で軽量なViTモデルを使用し、サーバは複雑なViTモデルをデプロイする。
提案した協調推論フレームワークは,ImageNetデータセットのサーバモデルと比較して,最小限の精度で通信オーバーヘッドを68%削減できることを示した。
論文 参考訳(メタデータ) (2024-02-23T10:08:45Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。