論文の概要: Modality Selection and Skill Segmentation via Cross-Modality Attention
- arxiv url: http://arxiv.org/abs/2504.14573v1
- Date: Sun, 20 Apr 2025 11:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:43:04.787113
- Title: Modality Selection and Skill Segmentation via Cross-Modality Attention
- Title(参考訳): クロスモーダルアテンションによるモダリティ選択とスキルセグメンテーション
- Authors: Jiawei Jiang, Kei Ota, Devesh K. Jha, Asako Kanezaki,
- Abstract要約: 本稿では,各段階における行動生成に最も有用なモダリティを識別し,選択的に活用するための,クロスモーダルアテンション(CMA)機構を提案する。
我々は、CMAの応用を拡張し、専門家によるデモンストレーションからプリミティブスキルを抽出し、このセグメンテーションを活用して、長い水平・コンタクトリッチな操作タスクを解くことができる階層的なポリシーを訓練する。
- 参考スコア(独自算出の注目度): 25.603337576197422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating additional sensory modalities such as tactile and audio into foundational robotic models poses significant challenges due to the curse of dimensionality. This work addresses this issue through modality selection. We propose a cross-modality attention (CMA) mechanism to identify and selectively utilize the modalities that are most informative for action generation at each timestep. Furthermore, we extend the application of CMA to segment primitive skills from expert demonstrations and leverage this segmentation to train a hierarchical policy capable of solving long-horizon, contact-rich manipulation tasks.
- Abstract(参考訳): 触覚やオーディオなどの付加的な感覚のモダリティを基礎となるロボットモデルに組み込むことは、次元性の呪いによって大きな課題となる。
この研究は、モダリティの選択を通じてこの問題に対処する。
本稿では,各段階における行動生成に最も有用なモダリティを識別し,選択的に活用するための,クロスモーダルアテンション(CMA)機構を提案する。
さらに、我々はCMAの応用を拡張して、専門家によるデモンストレーションから原始的なスキルを抽出し、このセグメンテーションを活用して、長い水平・コンタクトリッチな操作タスクを解くことができる階層的なポリシーを訓練する。
関連論文リスト
- MOSAIC: A Skill-Centric Algorithmic Framework for Long-Horizon Manipulation Planning [17.543746580669662]
ロボット工学とAIにおける重要な課題は、事前に定義された一連のスキルを使って、長い水平運動を計画することである。
我々はこれらの要素を統合化するためのスキル中心のフレームワークであるMOSAICを紹介します。
論文 参考訳(メタデータ) (2025-04-23T14:09:42Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Siamese Multiple Attention Temporal Convolution Networks for Human Mobility Signature Identification [9.25278235266564]
我々は,TNアーキテクチャとマルチヘッド自己注意の両長所を活かすため,シームズ多重注意時間畳み込みネットワーク(シームズMA-TCN)を提案する。
2つの実世界のタクシー軌道データを用いて実験を行った結果,提案手法は局所的な鍵情報と長期的依存関係の両方を効果的に抽出することがわかった。
論文 参考訳(メタデータ) (2024-08-17T15:27:38Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文 参考訳(メタデータ) (2022-10-11T16:09:13Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。