論文の概要: Diagnosis of Human Object Interaction Detectors for Real World Educational Applications
- arxiv url: http://arxiv.org/abs/2606.02789v1
- Date: Mon, 01 Jun 2026 18:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.550777
- Title: Diagnosis of Human Object Interaction Detectors for Real World Educational Applications
- Title(参考訳): 実世界の教育応用のためのヒューマン・オブジェクト・インタラクション・ディテクターの診断
- Authors: Divya Mereddy, Ashwin Tudur Sadashiva, Marcos Quinones-Grueiro, Gautam Biswas,
- Abstract要約: 本稿では,実世界の教育ビデオデータに対して,3段階のHOI誤り分類と誤り要因帰属分析を統合した診断駆動フレームワークを提案する。
HOI故障モードの解析とその原因に基づいて,事前学習したHOIモデルを対象領域に適応するための診断インフォームド・リファインメント・ストラテジーを開発する。
- 参考スコア(独自算出の注目度): 2.08825600142115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-object interaction (HOI) recognition is critical for automatically analyzing student behavior in complex educational environments. Although state-of-the-art (SOTA) HOI detectors perform well on benchmark datasets, their performance often degrades when deployed in real-world training environments due to domain-specific objects, occlusions, and complex visual conditions. In this paper, we introduce a diagnosis-driven framework that integrates a triplet-level HOI error taxonomy with error-factor attribution analysis for real-world educational video data. We study this problem in the context of Critical Care Air Transport Team (CCATT) mixed-reality medical training. Based on an analysis of HOI failure modes and their causes, we develop a diagnosis-informed refinement strategy for adapting pretrained HOI models to the target domain. Experiments on the CCATT dataset show that this approach improves the macro-F1 score of a pretrained CDN model from 48.6 to 90.2 through targeted refinement guided by diagnosed error factors. These results highlight the value of detailed diagnostic analysis for informing targeted adaptation of HOI models in real-world educational environments.
- Abstract(参考訳): 人間と物体の相互作用(HOI)認識は、複雑な教育環境における生徒の行動を自動的に解析するために重要である。
最先端(SOTA)HOI検出器は、ベンチマークデータセットでよく機能するが、ドメイン固有のオブジェクト、オクルージョン、複雑な視覚条件により、実世界のトレーニング環境にデプロイされると、その性能は劣化することが多い。
本稿では,実世界の教育ビデオデータに対して,3段階のHOI誤り分類と誤り要因帰属分析を統合した診断駆動型フレームワークを提案する。
本研究は、CCATT(Critical Care Air Transport Team)の医療訓練における問題点について考察する。
HOI故障モードの解析とその原因に基づいて,事前学習したHOIモデルを対象領域に適応するための診断インフォームド・リファインメント・ストラテジーを開発する。
CCATTデータセットの実験により、この手法は事前に訓練されたCDNモデルのマクロF1スコアを48.6から90.2に改善することを示した。
これらの結果は,現実世界の教育環境におけるHOIモデルのターゲット適応を示すための詳細な診断分析の価値を強調した。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - XAI-Driven Diagnosis of Generalization Failure in State-Space Cerebrovascular Segmentation Models: A Case Study on Domain Shift Between RSNA and TopCoW Datasets [0.5735035463793009]
我々は、最先端状態空間モデル(SSM)の一般化失敗を診断するための厳密で二相的なアプローチを提案する。
そこで本研究では,アテンションマップとグラウンド・トゥルース・セグメンテーションの重なり合いを計測することにより,モデルの焦点を定量化した。
本分析は,ターゲット領域の真の解剖学的特徴を放棄したアテンション機構のため,モデルが一般化しなかったことを証明している。
論文 参考訳(メタデータ) (2025-12-16T00:34:32Z) - An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Clinically-guided Data Synthesis for Laryngeal Lesion Detection [2.573786844054239]
そこで本研究では,Lyngeal endoscopic image-annotation pairを生成するために,Latent Diffusion Model(LDM)とControlNetアダプタを併用した新しいアプローチを提案する。
提案手法はCADx/eモデルのトレーニングデータセットの拡張に有効であり,喉頭科学における評価プロセスの強化に有効である。
論文 参考訳(メタデータ) (2025-08-08T09:55:54Z) - A Federated Learning Framework for Handling Subtype Confounding and Heterogeneity in Large-Scale Neuroimaging Diagnosis [22.017120252054625]
本稿では,ニューロイメージングCADシステムに適した新しいフェデレーション学習フレームワークを提案する。
私たちのアプローチには、最も適切なローカルモデルにサンプルをルーティングする動的ナビゲーションモジュールが含まれています。
1300名以上のMDD患者のfMRIデータと1100名の健常者を対象とした。
論文 参考訳(メタデータ) (2025-08-08T07:19:49Z) - Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design [7.509731425152396]
病理組織学における視覚言語モデル(VLM)の3つの状態の体系的調査と解析を行った。
我々は、ドメインの特異性、解剖学的精度、命令フレーミング、出力制約を体系的に変化させる包括的なプロンプトエンジニアリングフレームワークを開発する。
以上の結果から,正確な解剖学的基準が得られた場合,CONCHモデルが最も精度が高いため,迅速な工学がモデル性能に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2025-04-30T19:01:06Z) - Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチについて検討した。
深層学習モデルは画像データから直接学習し、放射能ベースのモデルは手作りの特徴を抽出する。
これらの知見は、診断AIにおけるモデル選択のための統計的に検証された、データ駆動の推奨を提供する。
論文 参考訳(メタデータ) (2025-04-16T16:54:37Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。