論文の概要: Embodied Representation Alignment with Mirror Neurons
- arxiv url: http://arxiv.org/abs/2509.21136v1
- Date: Thu, 25 Sep 2025 13:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.933584
- Title: Embodied Representation Alignment with Mirror Neurons
- Title(参考訳): ミラーニューロンを用いた身体的表現アライメント
- Authors: Wentao Zhu, Zhining Zhang, Yuwei Ren, Yin Huang, Hao Xu, Yizhou Wang,
- Abstract要約: ミラーニューロン(英: Mirror neurons)は、個体が行動を観察し、同じ行動を行うときに活性化するニューロンである。
本研究では,表現学習のレンズによるモデリングにおいて,統一的な視点を提供する。
ミラーニューロンにインスパイアされた我々は、観察された行動と実行された行動の表現を明示的に整列させるアプローチを導入する。
- 参考スコア(独自算出の注目度): 20.02701120025453
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mirror neurons are a class of neurons that activate both when an individual observes an action and when they perform the same action. This mechanism reveals a fundamental interplay between action understanding and embodied execution, suggesting that these two abilities are inherently connected. Nonetheless, existing machine learning methods largely overlook this interplay, treating these abilities as separate tasks. In this study, we provide a unified perspective in modeling them through the lens of representation learning. We first observe that their intermediate representations spontaneously align. Inspired by mirror neurons, we further introduce an approach that explicitly aligns the representations of observed and executed actions. Specifically, we employ two linear layers to map the representations to a shared latent space, where contrastive learning enforces the alignment of corresponding representations, effectively maximizing their mutual information. Experiments demonstrate that this simple approach fosters mutual synergy between the two tasks, effectively improving representation quality and generalization.
- Abstract(参考訳): ミラーニューロン(英: Mirror neurons)は、個体が行動を観察し、同じ行動を行うときの両方を活性化するニューロンのクラスである。
このメカニズムは、行動理解と実施の基本的な相互作用を明らかにし、これらの2つの能力が本質的に結びついていることを示唆している。
それでも、既存の機械学習手法は、これらの能力を独立したタスクとして扱うことで、この相互作用を概ね見落としている。
本研究では,表現学習のレンズによるモデリングにおいて,統一的な視点を提供する。
まず、それらの中間表現が自然に一致することを観察する。
ミラーニューロンに触発されて、観察および実行された動作の表現を明示的に整列するアプローチも導入する。
具体的には、2つの線形層を用いて表現を共有潜在空間にマッピングし、コントラスト学習は対応する表現のアライメントを強制し、相互情報を効果的に最大化する。
実験により、この単純なアプローチは2つのタスク間の相互シナジーを促進し、表現品質と一般化を効果的に改善することを示した。
関連論文リスト
- A Theoretical Study of (Hyper) Self-Attention through the Lens of Interactions: Representation, Training, Generalization [6.015898117103069]
一つの層に線形な自己アテンション(自己アテンション)が一対の相互作用を捉えた関数を効率的に表現し、学習し、一般化することができることを示す。
本分析は,学習中に観察される相互作用パターンの多様性について,最小限の仮定の下で,自己意識が相互相互作用学習者として機能することを明らかにする。
我々は、エンティティ間の異なる特徴レベルの相互作用の結合を学習するために設計された、新しいニューラルネットワークモジュールであるHyperFeatureAttentionを紹介する。
論文 参考訳(メタデータ) (2025-06-06T15:44:10Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Do Self-Supervised and Supervised Methods Learn Similar Visual
Representations? [3.1594831736896025]
コンストラシティブな自己教師付きアルゴリズム(SimCLR)と、共通アーキテクチャにおける単純な画像データの監視を比較した。
両手法は相似的な方法で類似の中間表現を学習し,最後の数層で表現が急速に発散することがわかった。
我々の研究は特に、学習した中間表現の重要性を強調し、補助的なタスク設計において重要な疑問を提起する。
論文 参考訳(メタデータ) (2021-10-01T16:51:29Z) - Concurrent Discrimination and Alignment for Self-Supervised Feature
Learning [52.213140525321165]
既存の自己指導型学習手法は,(1)どの特徴が分離されるべきかを明確に示すこと,あるいは(2)どの特徴が閉じるべきかを明確に示すこと,のいずれかのプリテキストタスクを用いて学習する。
本研究では,識別・調整手法の正の側面を組み合わせて,上記の課題に対処するハイブリッド手法を設計する。
本手法は,識別的予測タスクによってそれぞれ反発とアトラクションのメカニズムを明確に特定し,ペアビュー間の相互情報を同時に最大化する。
確立された9つのベンチマーク実験により,提案モデルが自己監督と移動の既成結果より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-08-19T09:07:41Z) - Learning Intermediate Features of Object Affordances with a
Convolutional Neural Network [1.52292571922932]
我々は深層畳み込みニューラルネットワーク(CNN)を訓練し、画像から手当を認識し、その基盤となる特徴や手当の寸法を知る。
我々は、この表現分析を、人間がどのように環境を知覚し、どのように相互作用するかを、よりフォーマルに説明するための第一歩であると考えている。
論文 参考訳(メタデータ) (2020-02-20T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。