論文の概要: REVELIO -- Universal Multimodal Task Load Estimation for Cross-Domain Generalization
- arxiv url: http://arxiv.org/abs/2509.01642v1
- Date: Mon, 01 Sep 2025 17:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.802165
- Title: REVELIO -- Universal Multimodal Task Load Estimation for Cross-Domain Generalization
- Title(参考訳): REVELIO -- クロスドメイン一般化のためのユニバーサルマルチモーダルタスク負荷推定
- Authors: Maximilian P. Oppelt, Andreas Foltyn, Nadine R. Lang-Richter, Bjoern M. Eskofier,
- Abstract要約: 本稿では,実世界のゲームアプリケーションを用いて,認知負荷検出ベンチマークを拡張したマルチモーダルデータセットを提案する。
タスク負荷アノテーションは、客観的なパフォーマンス、主観的なNASA-TLX評価、タスクレベルの設計から派生している。
xLSTM、ConvNeXt、Transformerアーキテクチャを含む最先端のエンドツーエンドモデルは、体系的にトレーニングされ、評価される。
- 参考スコア(独自算出の注目度): 2.689067085628911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task load detection is essential for optimizing human performance across diverse applications, yet current models often lack generalizability beyond narrow experimental domains. While prior research has focused on individual tasks and limited modalities, there remains a gap in evaluating model robustness and transferability in real-world scenarios. This paper addresses these limitations by introducing a new multimodal dataset that extends established cognitive load detection benchmarks with a real-world gaming application, using the $n$-back test as a scientific foundation. Task load annotations are derived from objective performance, subjective NASA-TLX ratings, and task-level design, enabling a comprehensive evaluation framework. State-of-the-art end-to-end model, including xLSTM, ConvNeXt, and Transformer architectures are systematically trained and evaluated on multiple modalities and application domains to assess their predictive performance and cross-domain generalization. Results demonstrate that multimodal approaches consistently outperform unimodal baselines, with specific modalities and model architectures showing varying impact depending on the application subset. Importantly, models trained on one domain exhibit reduced performance when transferred to novel applications, underscoring remaining challenges for universal cognitive load estimation. These findings provide robust baselines and actionable insights for developing more generalizable cognitive load detection systems, advancing both research and practical implementation in human-computer interaction and adaptive systems.
- Abstract(参考訳): タスク負荷検出は、多様なアプリケーション間でのヒューマンパフォーマンスの最適化に不可欠であるが、現在のモデルは、狭い実験領域を超えた一般化性に欠けることが多い。
従来の研究では、個々のタスクと限られたモダリティに焦点が当てられていたが、現実のシナリオにおけるモデルの堅牢性と転送可能性を評価するには、依然としてギャップがある。
本稿では, 実世界のゲームアプリケーションを用いて, 確立された認知負荷検出ベンチマークを拡張した新しいマルチモーダルデータセットを導入し, 科学的基礎として$n$-backテストを用いた。
タスク負荷アノテーションは、客観的なパフォーマンス、主観的なNASA-TLX評価、タスクレベルの設計から派生し、包括的な評価フレームワークを可能にする。
xLSTM、ConvNeXt、Transformerアーキテクチャを含む最先端のエンドツーエンドモデルは、予測性能とクロスドメインの一般化を評価するために、複数のモダリティとアプリケーションドメインで体系的に訓練され、評価される。
その結果、マルチモーダルアプローチは、アプリケーションサブセットによって異なる影響を示す特定のモダリティとモデルアーキテクチャにより、一様ベースラインを一貫して上回ります。
重要なことは、あるドメインでトレーニングされたモデルは、新しいアプリケーションに移行する際の性能を低下させ、普遍的な認知的負荷推定のための残りの課題を強調することである。
これらの知見は、人間とコンピュータの相互作用と適応システムにおける研究と実践の両方を進歩させ、より一般化可能な認知負荷検出システムを開発するための堅牢なベースラインと実用的な洞察を提供する。
関連論文リスト
- FoMEMO: Towards Foundation Models for Expensive Multi-objective Optimization [19.69959362934787]
本稿では,FoMEMOと呼ばれる新しいパラダイムを提案する。
実世界で広範囲にわたるドメイン実験にアクセスするのではなく、数億の合成データの多様なセットで基礎モデルを事前訓練することで、未知の問題への適応性が向上することを示した。
論文 参考訳(メタデータ) (2025-09-03T12:00:24Z) - Deploying Geospatial Foundation Models in the Real World: Lessons from WorldCereal [25.756741188074862]
本稿では,地空間基盤モデルを運用マッピングシステムに統合するための構造的アプローチを提案する。
私たちのプロトコルには、アプリケーション要件の定義、ドメイン固有のデータへのモデルの適用、厳密な経験的テストの実行という、3つの重要なステップがあります。
結果は、モデルの強い空間的および時間的一般化能力を強調する。
論文 参考訳(メタデータ) (2025-07-16T15:10:32Z) - PALATE: Peculiar Application of the Law of Total Expectation to Enhance the Evaluation of Deep Generative Models [0.5499796332553708]
深層生成モデル(DGM)は機械学習の分野でパラダイムシフトを引き起こしている。
これらのモデルに対する包括的評価は、生成したサンプルの忠実さ、多様性、新規性の間の三分法を考慮に入れている。
本稿では,既存の指標の限界に対処するDGMの評価を新たに強化したPALATEを提案する。
論文 参考訳(メタデータ) (2025-03-24T09:06:45Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。