論文の概要: How does longer temporal context enhance multimodal narrative video processing in the brain?
- arxiv url: http://arxiv.org/abs/2602.07570v1
- Date: Sat, 07 Feb 2026 14:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.700674
- Title: How does longer temporal context enhance multimodal narrative video processing in the brain?
- Title(参考訳): 長期の時間的文脈は脳内のマルチモーダル・ナラティブ・ビデオ処理をいかに促進させるか?
- Authors: Prachi Jindal, Anant Khandelwal, Manish Gupta, Bapi S. Raju, Subba Reddy Oota, Tanmoy Chakraborty,
- Abstract要約: 本研究では,ビデオクリップの時間的文脈長とナラティブ・タスクが自然主義映画視聴時の脳-モデルアライメントを促進するかを検討した。
マルチモーダル大言語モデル(MLLM)におけるクリップ持続時間の増加は脳のアライメントを大幅に改善することを発見した。
短い時間窓は知覚的および初期言語領域と一致し、長い窓はより高階の積分領域を優先的に整列する。
- 参考スコア(独自算出の注目度): 39.57117698934923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how humans and artificial intelligence systems process complex narrative videos is a fundamental challenge at the intersection of neuroscience and machine learning. This study investigates how the temporal context length of video clips (3--12 s clips) and the narrative-task prompting shape brain-model alignment during naturalistic movie watching. Using fMRI recordings from participants viewing full-length movies, we examine how brain regions sensitive to narrative context dynamically represent information over varying timescales and how these neural patterns align with model-derived features. We find that increasing clip duration substantially improves brain alignment for multimodal large language models (MLLMs), whereas unimodal video models show little to no gain. Further, shorter temporal windows align with perceptual and early language regions, while longer windows preferentially align higher-order integrative regions, mirrored by a layer-to-cortex hierarchy in MLLMs. Finally, narrative-task prompts (multi-scene summary, narrative summary, character motivation, and event boundary detection) elicit task-specific, region-dependent brain alignment patterns and context-dependent shifts in clip-level tuning in higher-order regions. Together, our results position long-form narrative movies as a principled testbed for probing biologically relevant temporal integration and interpretable representations in long-context MLLMs.
- Abstract(参考訳): 人間と人工知能システムが複雑な物語ビデオをどのように処理するかを理解することは、神経科学と機械学習の交差における根本的な課題である。
本研究では,ビデオクリップの時間的文脈長(3~12秒)とナラティブ映像視聴時の脳モデルアライメントの促進効果について検討した。
フル長の映画を観る参加者のfMRI記録を用いて、物語の文脈に敏感な脳領域が、様々な時間スケールの情報を動的に表現し、これらのニューラルパターンがモデル由来の特徴とどのように一致しているかを検討する。
クリップ長の増加はマルチモーダル大言語モデル(MLLM)の脳のアライメントを著しく向上させるが、一方、非モダルビデオモデルは利得をほとんど示さない。
さらに、短い時間窓は知覚および初期言語領域と一致し、長いウィンドウはより高階の積分領域を優先的に整列し、MLLMの層間階層によってミラーされる。
最後に、複数場面の要約、物語要約、キャラクタモチベーション、イベント境界検出)により、タスク固有の、領域依存の脳アライメントパターンと高次領域におけるクリップレベルのチューニングにおけるコンテキスト依存のシフトが引き起こされる。
本研究は,長文MLLMにおける生物学的な時間的統合と解釈可能な表現を探索するための基本テストベッドとして,長文物語映画を位置づけた。
関連論文リスト
- NarrativeTrack: Evaluating Video Language Models Beyond the Frame [10.244330591706744]
MLLMにおける物語理解を評価する最初のベンチマークであるNarrativeTrackを紹介する。
映像を構成要素に分解し,構成推論(CRP)フレームワークを用いて連続性を検証する。
CRPは、時間的永続性から文脈的進化、そしてきめ細かい知覚的推論まで、モデルを進化させることに挑戦する。
論文 参考訳(メタデータ) (2026-01-03T07:12:55Z) - DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding [19.50051728766238]
ダイナミックイメージ(DynImg)と呼ばれる革新的な映像表現手法を提案する。
具体的には,非キーフレームの集合を時間的プロンプトとして導入し,高速移動物体を含む空間領域を強調する。
視覚的特徴抽出の過程で、これらのプロンプトは、これらの領域に対応するきめ細かい空間的特徴にさらなる注意を払うようモデルに誘導する。
論文 参考訳(メタデータ) (2025-07-21T12:50:49Z) - MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - The Temporal Structure of Language Processing in the Human Brain
Corresponds to The Layered Hierarchy of Deep Language Models [37.605014098041906]
深層言語モデル(DLM)の階層構造は,脳内の言語理解の時間的ダイナミクスをモデル化するために用いられる可能性がある。
以上の結果から,DLMは高次言語領域における神経活動のタイミングを反映したコンテキスト情報を階層的に蓄積し,人間の言語処理とDLMの関連性を明らかにした。
論文 参考訳(メタデータ) (2023-10-11T01:03:42Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Visual representations in the human brain are aligned with large language models [7.779248296336383]
大規模言語モデル(LLM)は,脳が自然界から抽出した複雑な視覚情報をモデル化するのに有用であることを示す。
次に、画像入力をLLM表現に変換するために、ディープニューラルネットワークモデルを訓練する。
論文 参考訳(メタデータ) (2022-09-23T17:34:33Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。