論文の概要: Goal-Oriented Semantic Communication for Wireless Visual Question Answering
- arxiv url: http://arxiv.org/abs/2411.02452v2
- Date: Wed, 27 Nov 2024 11:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:22:54.735177
- Title: Goal-Oriented Semantic Communication for Wireless Visual Question Answering
- Title(参考訳): 無線視覚質問応答のためのゴール指向セマンティックコミュニケーション
- Authors: Sige Liu, Nan Li, Yansha Deng, Tony Q. S. Quek,
- Abstract要約: 本稿では,視覚質問応答(VQA)の性能向上を目的とした目標指向セマンティックコミュニケーション(GSC)フレームワークを提案する。
本稿では,BBoxを用いた画像意味抽出とランク付け手法を提案し,質問の目的に基づいてセマンティック情報を優先順位付けする。
実験の結果,本フレームワークはAWGNチャネルで49%,Rayleighチャネルで59%の精度で解答精度を向上することがわかった。
- 参考スコア(独自算出の注目度): 68.75814200517854
- License:
- Abstract: The rapid progress of artificial intelligence (AI) and computer vision (CV) has facilitated the development of computation-intensive applications like Visual Question Answering (VQA), which integrates visual perception and natural language processing to generate answers. To overcome the limitations of traditional VQA constrained by local computation resources, edge computing has been incorporated to provide extra computation capability at the edge side. Meanwhile, this brings new communication challenges between the local and edge, including limited bandwidth, channel noise, and multipath effects, which degrade VQA performance and user quality of experience (QoE), particularly during the transmission of large high-resolution images. To overcome these bottlenecks, we propose a goal-oriented semantic communication (GSC) framework that focuses on effectively extracting and transmitting semantic information most relevant to the VQA goals, improving the answering accuracy and enhancing the effectiveness and efficiency. The objective is to maximize the answering accuracy, and we propose a bounding box (BBox)-based image semantic extraction and ranking approach to prioritize the semantic information based on the goal of questions. We then extend it by incorporating a scene graphs (SG)-based approach to handle questions with complex relationships. Experimental results demonstrate that our GSC framework improves answering accuracy by up to 49% under AWGN channels and 59% under Rayleigh channels while reducing total latency by up to 65% compared to traditional bit-oriented transmission.
- Abstract(参考訳): 人工知能(AI)とコンピュータビジョン(CV)の急速な進歩は、視覚認識と自然言語処理を統合して回答を生成する、視覚質問回答(VQA)のような計算集約型アプリケーションの開発を促進する。
ローカルな計算資源によって制約される従来のVQAの制限を克服するため、エッジ側で余分な計算機能を提供するためにエッジコンピューティングが組み込まれている。
一方、これは、特に大きな高解像度画像の伝送において、VQA性能とユーザ品質(QoE)を低下させる、帯域幅の制限、チャネルノイズ、マルチパス効果などの、ローカルとエッジ間の新たな通信課題をもたらす。
これらのボトルネックを克服するために,VQA目標に最も関係のある意味情報を効果的に抽出し,伝達し,回答精度を改善し,有効性と効率を向上させることを目的とした,目標指向意味コミュニケーション(GSC)フレームワークを提案する。
本研究の目的は,回答の精度を最大化することであり,質問の目的に基づいて意味情報を優先順位付けするための境界ボックス(BBox)に基づく画像意味抽出とランキング手法を提案する。
次に、シーングラフ(SG)ベースのアプローチを導入して、複雑な関係を持つ質問に対処する。
実験結果から,従来のビット指向伝送に比べて解答精度を最大49%向上し,Rayleighでは59%向上し,全遅延を最大65%低減した。
関連論文リスト
- AI-in-the-Loop Sensing and Communication Joint Design for Edge Intelligence [65.29835430845893]
本稿では,AI-in-the-loopジョイントセンシングと通信によるエッジインテリジェンス向上のためのフレームワークを提案する。
私たちの研究の重要な貢献は、バリデーション損失とシステムのチューニング可能なパラメータとの間に明確な関係を確立することです。
提案手法は, 通信エネルギー消費を最大77%削減し, 試料数で測定した検知コストを最大52%削減する。
論文 参考訳(メタデータ) (2025-02-14T14:56:58Z) - Communication Efficient Cooperative Edge AI via Event-Triggered Computation Offloading [34.18100643343979]
本稿では,効率的なレアイベント処理を優先する,チャネルトリガーによるイベントトリガーエッジ推論フレームワークを提案する。
提案手法は,従来のエッジ推論手法とは対照的に,より優れたレアイベント分類精度を実現し,通信オーバーヘッドを効果的に低減する。
論文 参考訳(メタデータ) (2025-01-01T15:55:59Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。
この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2024-11-19T12:51:17Z) - Visual Question Answering in Remote Sensing with Cross-Attention and
Multimodal Information Bottleneck [14.719648367178259]
遠隔センシングにおける視覚的質問応答(VQA)の問題に対処する。
リモートセンシングされた画像には、識別や物体検出のタスクに重要な情報が含まれているが、高次元性、体積、冗長性のため、その処理には大きな課題がある。
本稿では,情報とクロスアテンションに基づくアプローチを提案する。CNN-LSTMをベースとしたクロスアテンションは,画像と言語モダリティの情報を強調し,両者の関連性を確立すると同時に,VQAタスクを実行するために必要なすべての関連情報を持つ低次元層を学習する。
論文 参考訳(メタデータ) (2023-06-25T15:09:21Z) - Task-Oriented Integrated Sensing, Computation and Communication for
Wireless Edge AI [46.61358701676358]
エッジ人工知能(AI)は、従来のクラウドをネットワークエッジまで高速に計算するために提案されている。
近年,特定のエッジAIタスクに対する無線センシング,計算,通信(SC$2$)の収束が,パラダイムシフトを引き起こしている。
超信頼性で低レイテンシなエッジインテリジェンス獲得を実現するために、完全に統合されたセンシング、計算、通信(I SCC)を進めることが最重要である。
論文 参考訳(メタデータ) (2023-06-11T06:40:51Z) - Semantic Communication Enabling Robust Edge Intelligence for
Time-Critical IoT Applications [87.05763097471487]
本稿では、時間クリティカルなIoTアプリケーションのためのセマンティック通信を用いて、堅牢なエッジインテリジェンスを設計することを目的とする。
本稿では,画像DCT係数が推定精度に与える影響を解析し,オフロードのためのチャネル非依存の有効性符号化を提案する。
論文 参考訳(メタデータ) (2022-11-24T20:13:17Z) - Enabling AI Quality Control via Feature Hierarchical Edge Inference [6.490724361345847]
本研究では,エッジサーバとそれに対応する移動体に配置された特徴ネットワークと推論ネットワークからなる特徴階層型EI(FHEI)を提案する。
より大規模な機能では、より優れたAI品質を提供する一方で、より多くの計算と通信負荷が必要になる。
提案したFHEIアーキテクチャの連成通信・計算制御が, 常にいくつかのベンチマークより優れていることが, 広範囲なシミュレーションにより検証された。
論文 参考訳(メタデータ) (2022-11-15T02:54:23Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。