論文の概要: VA-FastNavi-MARL: Real-Time Robot Control with Multimedia-Driven Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.03998v1
- Date: Sun, 05 Apr 2026 07:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.868877
- Title: VA-FastNavi-MARL: Real-Time Robot Control with Multimedia-Driven Meta-Reinforcement Learning
- Title(参考訳): VA-FastNavi-MARL: マルチメディア駆動型メタ強化学習によるリアルタイムロボット制御
- Authors: Yang Zhang, Shengxi Jing, Fengxiang Wang, Yuan Feng, Hong Wang,
- Abstract要約: VA-FastNavi-MARLは,非同期音声視覚入力を一貫した潜在表現に変換するフレームワークである。
提案手法は,予測のオーバーヘッドを無視して,未知のディレクティブへの迅速な適応を可能にする。
- 参考スコア(独自算出の注目度): 10.036984233538634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting dynamic, heterogeneous multimedia commands with real-time responsiveness is critical for Human-Robot Interaction. We present VA-FastNavi-MARL, a framework that aligns asynchronous audio-visual inputs into a unified latent representation. By treating diverse instructions as a distribution of navigable goals via Meta-Reinforcement Learning, our method enables rapid adaptation to unseen directives with negligible inference overhead. Unlike approaches bottlenecked by heavy sensory processing, our modality-agnostic stream ensures seamless, low-latency control. Validation on a multi-arm workspace confirms that VA-FastNavi-MARL significantly outperforms baselines in sample efficiency and maintains robust, real-time execution even under noisy multimedia streams.
- Abstract(参考訳): 動的でヘテロジニアスなマルチメディアコマンドをリアルタイム応答性で解釈することは、人間とロボットのインタラクションにとって重要である。
VA-FastNavi-MARLは,非同期音声視覚入力を統一された潜在表現に変換するフレームワークである。
メタ強化学習(Meta-Reinforcement Learning)を用いて,多様な指示をナビゲート可能な目標の分布として扱うことにより,未知の推論オーバーヘッドを持つ未確認ディレクティブへの迅速な適応を可能にする。
重み付け処理によってボトルネックとなるアプローチとは異なり、我々のモダリティに依存しないストリームはシームレスで低レイテンシな制御を保証します。
マルチアームワークスペースでの検証では,VA-FastNavi-MARLがサンプル効率でベースラインを著しく上回り,ノイズの多いマルチメディアストリームでも堅牢でリアルタイムな実行を維持できることを確認した。
関連論文リスト
- ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding [32.72568710955575]
本稿では,実時間オムニ・マルチモーダル・アシスタントであるROMAについて述べる。
ROMAは連続的な入力を同期マルチモーダル単位として処理し、密度の高いオーディオを離散ビデオフレームと整列させて粒度のミスマッチを処理する。
オンライン意思決定では、応答開始を生成から切り離して正確なトリガーを確実にする軽量なスポークヘッドを導入する。
論文 参考訳(メタデータ) (2026-01-15T12:09:04Z) - Context Video Semantic Transmission with Variable Length and Rate Coding over MIMO Channels [49.624608869195065]
無線ビデオ伝送のためのコンテキストビデオセマンティックトランスミッション(CVST)フレームワークを提案する。
我々は、特徴群と多重入力多重出力(MIMO)サブチャネルの関係を明確に定式化するために、コンテキストチャネル相関マップを学習する。
近年の無線ビデオ・セマンティック・コミュニケーション・アプローチにおいて,標準化された分離符号化方式に対して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-12-23T10:48:43Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation [3.3359927518257866]
効率的な音声視覚ナビゲーションのための動的マルチターゲットフュージョン(DMTF-AVN)を提案する。
提案手法では,マルチターゲットアーキテクチャと改良されたTransformer機構を組み合わせることで,クロスモーダル情報をフィルタし,選択的にフューズする。
ReplicaとMatterport3Dデータセットの実験により、DMTF-AVNは、成功率(SR)、パス効率(SPL)、シーン適応(SNA)において、既存の手法よりも優れた、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-09-23T09:31:00Z) - Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment [5.262258418692889]
長時間の行動品質評価(AQA)は、最大数分間の動画における人間の活動の質を評価することに焦点を当てている。
LMAC-Net(Long-term Multimodal Attention Consistency Network)では,マルチモーダル特徴を明示的に整列する多モーダルアテンション一貫性機構を導入している。
RGデータセットとFis-Vデータセットで実施された実験は、LMAC-Netが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-29T15:58:39Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。