論文の概要: OmniField: Conditioned Neural Fields for Robust Multimodal Spatiotemporal Learning
- arxiv url: http://arxiv.org/abs/2511.02205v1
- Date: Tue, 04 Nov 2025 02:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.781202
- Title: OmniField: Conditioned Neural Fields for Robust Multimodal Spatiotemporal Learning
- Title(参考訳): OmniField:ロバスト多モード時空間学習のための条件付きニューラルネットワーク
- Authors: Kevin Valencia, Thilina Balasooriya, Xihaier Luo, Shinjae Yoo, David Keetae Park,
- Abstract要約: 本稿では、利用可能なモダリティに基づいて連続的なニューラルネットワークを学習し、繰り返しモーダルコンテキストを融合する連続性認識フレームワークを提案する。
OmniFieldはマルチモーダル時間ベースラインに先行する8つの強い評価を一貫して上回っている。
- 参考スコア(独自算出の注目度): 14.553753196647241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal spatiotemporal learning on real-world experimental data is constrained by two challenges: within-modality measurements are sparse, irregular, and noisy (QA/QC artifacts) but cross-modally correlated; the set of available modalities varies across space and time, shrinking the usable record unless models can adapt to arbitrary subsets at train and test time. We propose OmniField, a continuity-aware framework that learns a continuous neural field conditioned on available modalities and iteratively fuses cross-modal context. A multimodal crosstalk block architecture paired with iterative cross-modal refinement aligns signals prior to the decoder, enabling unified reconstruction, interpolation, forecasting, and cross-modal prediction without gridding or surrogate preprocessing. Extensive evaluations show that OmniField consistently outperforms eight strong multimodal spatiotemporal baselines. Under heavy simulated sensor noise, performance remains close to clean-input levels, highlighting robustness to corrupted measurements.
- Abstract(参考訳): 実世界の実験データに対するマルチモーダル時空間学習は、2つの課題によって制限される: 内部モダリティの測定はスパース、不規則、ノイズ(QA/QCアーティファクト)であるが、相互に相関する; 利用可能なモダリティの集合は空間と時間によって変化し、モデルが列車やテスト時に任意のサブセットに適応しない限り使用可能なレコードを縮小する。
OmniFieldは、利用可能なモダリティに条件付き連続的なニューラルネットワークを学習し、反復的にクロスモーダルコンテキストを融合する連続性認識フレームワークである。
繰り返しクロスモーダルリファインメントと組み合わせたマルチモーダルクロストークブロックアーキテクチャは、デコーダに先立って信号を整列し、グリッドやサロゲート前処理なしに統一的な再構成、補間、予測、およびクロスモーダル予測を可能にする。
OmniFieldは8つの強いマルチモーダル時空間ベースラインを一貫して上回っている。
重くシミュレートされたセンサノイズの下では、性能はクリーンな入力レベルに近づき、劣化した測定に対する堅牢性を強調している。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。
U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。
UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文 参考訳(メタデータ) (2024-10-15T04:56:43Z) - TSdetector: Temporal-Spatial Self-correction Collaborative Learning for Colonoscopy Video Detection [19.00902297385955]
本研究では,時間レベルの整合性学習と空間レベルの信頼性学習を統合した時間空間自己補正検出器(TSdetector)を提案する。
公開された3つのポリプビデオデータセットの実験結果は、TSdetectorが最も高いポリプ検出率を達成し、他の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-09-30T06:19:29Z) - Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation [56.70910056845503]
マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法は, 時間的不整合によるフレームワイドの不安定な予測と, 信頼度誘導の仮定に反する不正確な予測の2つの大きな限界に悩まされていた。
Latte++は、より情報的な幾何学的対応によって不安定なフレーム単位の予測をより抑制し、対話型テスト時間適応(ITTA)は、努力を伴わない人間のフィードバックを促進するフレキシブルなアドオンである。
論文 参考訳(メタデータ) (2024-03-11T06:56:08Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Robust Audio Anomaly Detection [10.75127981612396]
提案されたアプローチは、トレーニングデータセットにラベル付き異常が存在することを前提としません。
時間力学は、注意機構を付加した繰り返し層を用いてモデル化される。
ネットワークの出力は、外向きの頑健な確率密度関数である。
論文 参考訳(メタデータ) (2022-02-03T17:19:42Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。