論文の概要: The One Where They Brain-Tune for Social Cognition: Multi-Modal Brain-Tuning on Friends
- arxiv url: http://arxiv.org/abs/2511.07988v1
- Date: Wed, 12 Nov 2025 01:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.583022
- Title: The One Where They Brain-Tune for Social Cognition: Multi-Modal Brain-Tuning on Friends
- Title(参考訳): 社会的認知のためのブレイン・チューン:友達のマルチモーダル・ブレイン・チューニング
- Authors: Nico Policzer, Cameron Braunstein, Mariya Toneva,
- Abstract要約: 近年の音声モデルの研究では、脳チューニングにより脳のアライメントが向上し、下流のセマンティックタスクや音声タスクのパフォーマンスが向上している。
本手法をマルチモーダル・オーディオ・ビデオ・モデルに拡張し,社会認知の向上を図り,社会処理の重要領域であるSTS(Superior Temporal Sulcus)を対象とし,被験者は友人を視聴する。
我々は、STSと隣接するROIに対する脳のアライメントの顕著な増加と、トレーニングデータに関連する社会的認知タスク(sarcasm detection in sitcoms)の改善を見出した。
- 参考スコア(独自算出の注目度): 7.544757765701026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on audio models show brain-tuning - fine-tuning models to better predict corresponding fMRI activity - improves brain alignment and increases performance on downstream semantic and audio tasks. We extend this approach to a multimodal audio-video model to enhance social cognition, targeting the Superior Temporal Sulcus (STS), a key region for social processing, while subjects watch Friends. We find significant increases in brain alignment to the STS and an adjacent ROI, as well as improvements to a social cognition task related to the training data - sarcasm detection in sitcoms. In summary, our study extends brain-tuning to the multi-modal domain, demonstrating improvements to a downstream task after tuning to a relevant functional region.
- Abstract(参考訳): 最近のオーディオモデルの研究では、脳の調整 - 対応するfMRI活動をより正確に予測するための微調整モデル - は、脳のアライメントを改善し、下流のセマンティックタスクとオーディオタスクのパフォーマンスを向上させる。
本手法をマルチモーダル・オーディオ・ビデオ・モデルに拡張し,社会認知の向上を図り,社会処理の重要領域であるSTS(Superior Temporal Sulcus)を対象とし,被験者は友人を視聴する。
我々は、STSと隣接するROIに対する脳のアライメントの顕著な増加と、トレーニングデータに関連する社会的認知タスク(sarcasm detection in sitcoms)の改善を見出した。
まとめると、本研究は脳のチューニングをマルチモーダル領域に拡張し、関連する機能領域に調整した後の下流タスクの改善を実証した。
関連論文リスト
- BrainATCL: Adaptive Temporal Brain Connectivity Learning for Functional Link Prediction and Age Estimation [0.33748750222488655]
本稿では、適応的時間的脳接続学習のための非教師なしノンパラメトリックフレームワークBrainATCLを提案する。
提案手法は,新たに追加されたエッジのレートに基づいて,スナップショット毎のルックバックウィンドウを動的に調整する。
グラフシーケンスはGINE-Mamba2バックボーンを用いて符号化され、静止状態fMRIデータにおける動的機能接続の時空間表現を学習する。
論文 参考訳(メタデータ) (2025-08-09T21:18:25Z) - MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。
本手法は,本課題における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - Voxel-Level Brain States Prediction Using Swin Transformer [65.9194533414066]
本稿では, 4D Shifted Window (Swin) Transformer をエンコーダとして用い, 時間的情報を効率よく学習し, 畳み込みデコーダを用いて入力fMRIデータと同じ空間的, 時間的解像度で脳状態の予測を可能にするアーキテクチャを提案する。
前回の23.04s fMRI時系列に基づいて7.2sの安静時脳活動を予測すると,高い精度が得られた。
これは、人間の脳の時間的構造が高解像度でSwin Transformerモデルによって学習できることを示す有望な証拠である。
論文 参考訳(メタデータ) (2025-06-13T04:14:38Z) - SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning [53.16179295245888]
SIV-Benchは、SSU(Social Scene Understanding)、SSR(Social State Reasoning)、SDP(Social Dynamics Prediction)におけるMLLM(Multimodal Large Language Models)の機能を評価するための新しいビデオベンチマークである。
SIV-Benchは、2,792本のビデオクリップと8,792本の人間とLLMのコラボレーティブパイプラインから得られた精巧に生成された質問応答ペアを備えている。
また、異なるテキストキュー固有のオンスクリーンテキスト、追加の対話、あるいはノーテキストの影響を分析するための専用の設定も含まれている。
論文 参考訳(メタデータ) (2025-06-05T05:51:35Z) - A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli [26.07986165893441]
脳信号を復号して刺激を再構築することで、AI、疾患治療、脳とコンピュータのインターフェースの進歩を加速させる。
ニューロイメージングおよび画像生成モデルの最近の進歩は、fMRIに基づくデコードを大幅に改善した。
本研究は、受動的脳信号からの刺激再構成に焦点を当て、fMRIに基づく脳のデコーディングの最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-03-20T09:23:07Z) - BrainMAP: Learning Multiple Activation Pathways in Brain Networks [77.15180533984947]
本稿では,脳ネットワークにおける複数の活性化経路を学習するための新しいフレームワークであるBrainMAPを紹介する。
本フレームワークは,タスクに関わる重要な脳領域の説明的分析を可能にする。
論文 参考訳(メタデータ) (2024-12-23T09:13:35Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - R&B -- Rhythm and Brain: Cross-subject Decoding of Music from Human Brain Activity [0.12289361708127873]
音楽は、文化全体にわたる人間の経験に大きな影響を及ぼす普遍的な現象である。
本研究では,音楽の知覚における機能的MRI(FMRI)を用いた人間の脳活動から,音楽の復号化が可能であるかを検討した。
論文 参考訳(メタデータ) (2024-06-21T17:11:45Z) - Extracting the Multiscale Causal Backbone of Brain Dynamics [9.905883167156393]
脳力学のマルチスケール因果バックボーン(MCB)を提案する。
我々のアプローチは、近年のマルチスケール因果構造学習の進歩を活用している。
マルチスケールの性質のおかげで、因果ダイナミクスは高レベルの認知機能に関連する脳の領域によって駆動される。
論文 参考訳(メタデータ) (2023-10-31T19:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。