Fugu-MT 論文翻訳(概要): Goal-Oriented Semantic Communication for Wireless Visual Question Answering

論文の概要: Goal-Oriented Semantic Communication for Wireless Visual Question Answering

arxiv url: http://arxiv.org/abs/2411.02452v2
Date: Wed, 27 Nov 2024 11:52:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.097325
Title: Goal-Oriented Semantic Communication for Wireless Visual Question Answering
Title（参考訳）: 無線視覚質問応答のためのゴール指向セマンティックコミュニケーション
Authors: Sige Liu, Nan Li, Yansha Deng, Tony Q. S. Quek,
Abstract要約: 本稿では,視覚質問応答(VQA)の性能向上を目的とした目標指向セマンティックコミュニケーション(GSC)フレームワークを提案する。本稿では,BBoxを用いた画像意味抽出とランク付け手法を提案し,質問の目的に基づいてセマンティック情報を優先順位付けする。実験の結果,本フレームワークはAWGNチャネルで49%,Rayleighチャネルで59%の精度で解答精度を向上することがわかった。
参考スコア（独自算出の注目度）: 68.75814200517854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress of artificial intelligence (AI) and computer vision (CV) has facilitated the development of computation-intensive applications like Visual Question Answering (VQA), which integrates visual perception and natural language processing to generate answers. To overcome the limitations of traditional VQA constrained by local computation resources, edge computing has been incorporated to provide extra computation capability at the edge side. Meanwhile, this brings new communication challenges between the local and edge, including limited bandwidth, channel noise, and multipath effects, which degrade VQA performance and user quality of experience (QoE), particularly during the transmission of large high-resolution images. To overcome these bottlenecks, we propose a goal-oriented semantic communication (GSC) framework that focuses on effectively extracting and transmitting semantic information most relevant to the VQA goals, improving the answering accuracy and enhancing the effectiveness and efficiency. The objective is to maximize the answering accuracy, and we propose a bounding box (BBox)-based image semantic extraction and ranking approach to prioritize the semantic information based on the goal of questions. We then extend it by incorporating a scene graphs (SG)-based approach to handle questions with complex relationships. Experimental results demonstrate that our GSC framework improves answering accuracy by up to 49% under AWGN channels and 59% under Rayleigh channels while reducing total latency by up to 65% compared to traditional bit-oriented transmission.
Abstract（参考訳）: 人工知能(AI)とコンピュータビジョン(CV)の急速な進歩は、視覚認識と自然言語処理を統合して回答を生成する、視覚質問回答(VQA)のような計算集約型アプリケーションの開発を促進する。ローカルな計算資源によって制約される従来のVQAの制限を克服するため、エッジ側で余分な計算機能を提供するためにエッジコンピューティングが組み込まれている。一方、これは、特に大きな高解像度画像の伝送において、VQA性能とユーザ品質(QoE)を低下させる、帯域幅の制限、チャネルノイズ、マルチパス効果などの、ローカルとエッジ間の新たな通信課題をもたらす。これらのボトルネックを克服するために,VQA目標に最も関係のある意味情報を効果的に抽出し,伝達し,回答精度を改善し,有効性と効率を向上させることを目的とした,目標指向意味コミュニケーション(GSC)フレームワークを提案する。本研究の目的は,回答の精度を最大化することであり,質問の目的に基づいて意味情報を優先順位付けするための境界ボックス(BBox)に基づく画像意味抽出とランキング手法を提案する。次に、シーングラフ(SG)ベースのアプローチを導入して、複雑な関係を持つ質問に対処する。実験結果から,従来のビット指向伝送に比べて解答精度を最大49%向上し,Rayleighでは59%向上し,全遅延を最大65%低減した。

関連論文リスト

Security-Aware Joint Sensing, Communication, and Computing Optimization in Low Altitude Wireless Networks [83.84711311344918]
I SCCは低高度無線ネットワーク(LAWN)の中核部の一つである。本稿では,通信の秘密性を考慮したI SCCの連成性能最適化について検討する。進化的最適化の目的に応じて進化的演算子を適応的に選択する深層Q-network(DQN)に基づく多目的進化アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-11-03T11:06:41Z)
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks [55.32199894495722]
LMMに基づく車両用AIアシスタントLarge Language and Vision Assistant(LLaVA)について検討する。計算要求を減らし、応答時間を短縮するため、LLaVAの画像スライシングを最適化し、ユーザにとって最も関心のある領域に選択的にフォーカスする。交通シナリオに対する視覚質問応答(VQA)データセットを構築し,有効性を評価する。
論文参考訳（メタデータ） (2025-05-05T07:18:47Z)
Communication Optimization for Decentralized Learning atop Bandwidth-limited Edge Networks [4.880664732766839]
分散連合学習(DFL)は、人工知能(AI)機能をネットワークエッジに持ち込むための、有望な機械学習パラダイムである。しかし、エッジネットワーク上でのDFLの実行は、エージェント間の広範なパラメータ交換のため、深刻なパフォーマンス上の問題に直面している。エージェントとエージェント間の通信要求を制御するミキシングマトリックスとで構成したオーバーレイネットワークの通信方式を共同で設計する。評価の結果,提案アルゴリズムはベースラインと比較してトレーニング時間を80%以上削減できることがわかった。
論文参考訳（メタデータ） (2025-04-16T15:56:57Z)
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
論文参考訳（メタデータ） (2025-02-28T11:25:38Z)
AI-in-the-Loop Sensing and Communication Joint Design for Edge Intelligence [65.29835430845893]
本稿では,AI-in-the-loopジョイントセンシングと通信によるエッジインテリジェンス向上のためのフレームワークを提案する。私たちの研究の重要な貢献は、バリデーション損失とシステムのチューニング可能なパラメータとの間に明確な関係を確立することです。提案手法は, 通信エネルギー消費を最大77%削減し, 試料数で測定した検知コストを最大52%削減する。
論文参考訳（メタデータ） (2025-02-14T14:56:58Z)
Communication Efficient Cooperative Edge AI via Event-Triggered Computation Offloading [34.18100643343979]
本稿では,効率的なレアイベント処理を優先する,チャネルトリガーによるイベントトリガーエッジ推論フレームワークを提案する。提案手法は,従来のエッジ推論手法とは対照的に,より優れたレアイベント分類精度を実現し,通信オーバーヘッドを効果的に低減する。
論文参考訳（メタデータ） (2025-01-01T15:55:59Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文参考訳（メタデータ） (2024-11-19T12:51:17Z)
Semantic Communication based on Large Language Model for Underwater Image Transmission [36.56805696235768]
従来の水中通信は、低帯域幅、高レイテンシ、ノイズに対する感受性といった制限に直面している。大規模言語モデル(LLM)に基づく新しい意味コミュニケーションフレームワークを提案する。私たちのフレームワークは、データ全体のサイズをオリジナルの0.8%に削減します。
論文参考訳（メタデータ） (2024-08-08T16:46:14Z)
Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-07T14:32:36Z)
Tackling Distribution Shifts in Task-Oriented Communication with Information Bottleneck [28.661084093544684]
本稿では,情報ボトルネック(IB)原理と不変リスク最小化(IRM)フレームワークに基づく新しいアプローチを提案する。提案手法は,効率的な領域シフト一般化のための高機能を有するコンパクトかつ情報的特徴を抽出することを目的としている。提案手法は最先端の手法より優れ、より優れたレート歪みトレードオフを実現することを示す。
論文参考訳（メタデータ） (2024-05-15T17:07:55Z)
RIS-Based On-the-Air Semantic Communications -- a Diffractional Deep Neural Network Approach [10.626169088908867]
現在のAIベースのセマンティックコミュニケーション手法は実装にデジタルハードウェアを必要とする。 RISベースのセマンティックコミュニケーションは、光速計算、計算能力の低さ、複数のタスクを同時に処理する能力など、魅力的な機能を提供する。
論文参考訳（メタデータ） (2023-12-01T12:15:49Z)
Generative AI-aided Joint Training-free Secure Semantic Communications via Multi-modal Prompts [89.04751776308656]
本稿では,多モデルプロンプトを用いたGAI支援型SemComシステムを提案する。セキュリティ上の懸念に応えて、フレンドリーなジャマーによって支援される隠蔽通信の応用を紹介する。
論文参考訳（メタデータ） (2023-09-05T23:24:56Z)
Communication-Efficient Framework for Distributed Image Semantic Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文参考訳（メタデータ） (2023-08-07T16:32:14Z)
Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck [14.719648367178259]
遠隔センシングにおける視覚的質問応答(VQA)の問題に対処する。リモートセンシングされた画像には、識別や物体検出のタスクに重要な情報が含まれているが、高次元性、体積、冗長性のため、その処理には大きな課題がある。本稿では,情報とクロスアテンションに基づくアプローチを提案する。CNN-LSTMをベースとしたクロスアテンションは,画像と言語モダリティの情報を強調し,両者の関連性を確立すると同時に,VQAタスクを実行するために必要なすべての関連情報を持つ低次元層を学習する。
論文参考訳（メタデータ） (2023-06-25T15:09:21Z)
Task-Oriented Integrated Sensing, Computation and Communication for Wireless Edge AI [46.61358701676358]
エッジ人工知能(AI)は、従来のクラウドをネットワークエッジまで高速に計算するために提案されている。近年,特定のエッジAIタスクに対する無線センシング,計算,通信(SC$2$)の収束が,パラダイムシフトを引き起こしている。超信頼性で低レイテンシなエッジインテリジェンス獲得を実現するために、完全に統合されたセンシング、計算、通信(I SCC)を進めることが最重要である。
論文参考訳（メタデータ） (2023-06-11T06:40:51Z)
Semantic Communication Enabling Robust Edge Intelligence for Time-Critical IoT Applications [87.05763097471487]
本稿では、時間クリティカルなIoTアプリケーションのためのセマンティック通信を用いて、堅牢なエッジインテリジェンスを設計することを目的とする。本稿では,画像DCT係数が推定精度に与える影響を解析し,オフロードのためのチャネル非依存の有効性符号化を提案する。
論文参考訳（メタデータ） (2022-11-24T20:13:17Z)
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文参考訳（メタデータ） (2022-05-23T17:55:34Z)
Common Language for Goal-Oriented Semantic Communications: A Curriculum Learning Framework [66.81698651016444]
目標指向タスク実行を実現するための包括的セマンティックコミュニケーションフレームワークを提案する。カリキュラム学習(CL)と強化学習(RL)を組み合わせた新しいトップダウンフレームワークを提案する。シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。
論文参考訳（メタデータ） (2021-11-15T19:13:55Z)
Learning Task-Oriented Communication for Edge Inference: An Information Bottleneck Approach [3.983055670167878]
ローエンドエッジ装置は、ローカルデータサンプルの抽出された特徴ベクトルを強力なエッジサーバに送信して処理する。帯域幅が限られているため、データを低遅延推論のための情報的かつコンパクトな表現に符号化することが重要である。特徴抽出,ソース符号化,チャネル符号化を協調的に最適化する学習型通信方式を提案する。
論文参考訳（メタデータ） (2021-02-08T12:53:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。