論文の概要: An Interpretable Closed-Loop Intelligent Tutoring System for Multimodal Affective Feedback in Asynchronous Presentation Training
- arxiv url: http://arxiv.org/abs/2605.17468v1
- Date: Sun, 17 May 2026 14:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.105033
- Title: An Interpretable Closed-Loop Intelligent Tutoring System for Multimodal Affective Feedback in Asynchronous Presentation Training
- Title(参考訳): 非同期プレゼンテーショントレーニングにおけるマルチモーダル影響フィードバックのための解釈可能なクローズドループ知的チューニングシステム
- Authors: Hung-Yue Suen, Kuo-En Hung,
- Abstract要約: ITSはマルチモーダル入力をエビデンスベースのフィードバックにマッピングし、観測可能なパフォーマンスキューに遡ることができる。
このシステムは、専門家のレーティングに匹敵するパフォーマンスレベルでルーリック整合スコアを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an interpretable closed-loop Intelligent Tutoring System (ITS) that supports feedback-guided practice for developing on-camera oral presentation skills at scale. The system operationalizes a seven-dimensional Behaviorally Anchored Rating Scale (BARS) and implements a three-layer interpretable feedback architecture that connects rubric-aligned multimodal scoring, audience-perceived expressive diagnostics, and retrieval-augmented conversational coaching to support deliberate practice. Built on an XGBoost backbone, the ITS maps multimodal inputs (facial, vocal, textual, and oculomotor features) into evidence-based feedback that can be traced back to observable performance cues. Trained on 10,360 Massive Open Online Course (MOOC) video segments, the system achieved rubric-aligned scoring with performance levels comparable to expert ratings (R2 = 0.48-0.61, Spearman's rho = 0.69-0.78, MAE = 0.43-0.57). In a pre-post validation study with 204 adult learners over a 30-day practice window, participants demonstrated significant improvements across all seven BARS dimensions (Cohen's d = 0.39-0.90), with practice frequency showing a strong positive association with posttest performance after controlling for baseline scores and demographics. The results demonstrate how multimodal analytic outputs can be systematically transformed into observable behavioral change through an integrated feedback architecture, advancing explainable and pedagogically grounded ITS design for performance-based competencies.
- Abstract(参考訳): 本稿では,カメラ上でのプレゼンテーション技術を大規模に開発するためのフィードバック誘導演習を支援する,解釈可能なクローズドループ・インテリジェント・チュータリング・システム(ITS)を提案する。
システムは,7次元の行動アンコール型レーティング尺度(BARS)を運用し,ルーブリック整列型マルチモーダルスコア,オーディエンス認識型表現型診断,検索強化型会話型コーチングを接続して,意図的な実践を支援する3層解釈可能なフィードバックアーキテクチャを実装している。
XGBoostのバックボーン上に構築されたITSは、マルチモーダル入力(顔、声、テキスト、およびオキュロモータ)を、観測可能なパフォーマンスキューに遡ることができるエビデンスベースのフィードバックにマッピングする。
10,360Massive Open Online Course (MOOC)ビデオセグメントでトレーニングされたこのシステムは、専門家のレーティングに匹敵するパフォーマンスレベル(R2 = 0.48-0.61、スピアマンのrho = 0.69-0.78、MAE = 0.43-0.57)で評価された。
30日間の練習窓上での204人の成人学習者を対象に、被験者は7つのBARS次元(Cohen's d = 0.39-0.90)で有意な改善を示した。
この結果から,マルチモーダル解析出力を総合的なフィードバックアーキテクチャにより可観測的行動変化に体系的に変換し,性能に基づく能力向上のためのITS設計を先導した。
関連論文リスト
- Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback [1.3893859937118993]
Ego-Exo4Dにおける多視点精度推定への最近の貢献について論じる。
SkillFormerは、選択的なマルチビュー融合のためのパラメータ効率の良い識別アーキテクチャを導入している。
PATSは、基本運動の局所的な密集した抜粋を保存することにより、時間的サンプリングを改善する。
ProfVLMは条件言語生成としての熟練度推定を再構成する。
論文 参考訳(メタデータ) (2026-05-05T15:14:40Z) - Multi-Frequency Local Plasticity for Visual Representation Learning [0.40048696135519796]
本研究では,視覚認識におけるエンドツーエンドの勾配に基づく表現学習の欠如を補う構造的アーキテクチャバイアスについて検討する。
i) 固定多周波ガボルのF=7並列ストリームへの分解, (ii) ヘビアンとオジャの更新と反ヘビアンデコリレーションによるストリーム内競合学習, (iii) 現代のホプフィールド検索にインスパイアされた連想メモリモジュール。
論文 参考訳(メタデータ) (2026-04-09T18:30:47Z) - EduIllustrate: Towards Scalable Automated Generation Of Multimodal Educational Content [19.131221541276332]
大規模な言語モデルを評価するためのベンチマークであるEduIllustrateを提案する。
このベンチマークは、5つの被験者と3つのグレードレベルにまたがる230の課題からなる。
Gemini 3.0 Pro Previewは87.8%、Kim-K2.5は最高のコスト効率を実現している。
論文 参考訳(メタデータ) (2026-04-06T08:58:31Z) - REFINE: Real-world Exploration of Interactive Feedback and Student Behaviour [12.059739840538638]
本稿では、ローカルにデプロイ可能なマルチエージェントフィードバックシステムであるREFINEを紹介し、フィードバックを対話的なプロセスとして扱う。
REFINEは、人力判断器を用いて、台座フィードバック生成剤とLSM-as-a-judge-guided regeneration loopを併用する。
本研究は,多エージェント・ツール拡張型フィードバックシステムの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2026-03-31T01:48:08Z) - Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。