論文の概要: EgoInstruct: An Egocentric Video Dataset of Face-to-face Instructional Interactions with Multi-modal LLM Benchmarking
- arxiv url: http://arxiv.org/abs/2509.22019v1
- Date: Fri, 26 Sep 2025 07:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.283321
- Title: EgoInstruct: An Egocentric Video Dataset of Face-to-face Instructional Interactions with Multi-modal LLM Benchmarking
- Title(参考訳): EgoInstruct:マルチモーダルLCMベンチマークによる対面インストラクショナルインタラクションのエゴセントリックなビデオデータセット
- Authors: Yuki Sakai, Ryosuke Furuta, Juichun Yen, Yoichi Sato,
- Abstract要約: 対面指導のエゴセントリックな新しいビデオデータセットを提案する。
我々は,2つの基本的なタスクに対して,命令的相互作用の包括的理解に向けた第一歩となる基本的アノテーションを提供する。
画像,音声,テキストを共同処理するMLLMを最近導入した。
- 参考スコア(独自算出の注目度): 20.1877648578032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing instructional interactions between an instructor and a learner who are co-present in the same physical space is a critical problem for educational support and skill transfer. Yet such face-to-face instructional scenes have not been systematically studied in computer vision. We identify two key reasons: i) the lack of suitable datasets and ii) limited analytical techniques. To address this gap, we present a new egocentric video dataset of face-to-face instruction and provide ground-truth annotations for two fundamental tasks that serve as a first step toward a comprehensive understanding of instructional interactions: procedural step segmentation and conversation-state classification. Using this dataset, we benchmark multimodal large language models (MLLMs) against conventional task-specific models. Since face-to-face instruction involves multiple modalities (speech content and prosody, gaze and body motion, and visual context), effective understanding requires methods that handle verbal and nonverbal communication in an integrated manner. Accordingly, we evaluate recently introduced MLLMs that jointly process images, audio, and text. This evaluation quantifies the extent to which current machine learning models understand face-to-face instructional scenes. In experiments, MLLMs outperform specialized baselines even without task-specific fine-tuning, suggesting their promise for holistic understanding of instructional interactions.
- Abstract(参考訳): 同じ物理空間に一緒にいる教官と学習者との指導的相互作用を分析することは、教育支援と技術移転にとって重要な問題である。
しかし、このような対面指導シーンはコンピュータビジョンにおいて体系的に研究されていない。
主な理由を2つ挙げる。
一 適切なデータセットの欠如及び
二 限られた分析技術
このギャップに対処するため、我々は、対面指導のエゴセントリックなビデオデータセットを新たに提示し、2つの基本的なタスクに対して、手続き的なステップセグメンテーションと会話状態の分類という、命令間相互作用の包括的理解に向けた第一歩となる基本的アノテーションを提供する。
このデータセットを用いて,従来のタスク固有モデルに対してMLLM(Multimodal large language model)をベンチマークする。
対面指導には複数のモーダル性(音声の内容と韻律、視線と身体の動き、視覚的文脈)が伴うため、効果的な理解には言語的・非言語的なコミュニケーションを統合的に扱う方法が必要である。
そこで我々は,画像,音声,テキストを共同処理するMLLMを最近導入した。
この評価は、現在の機械学習モデルが対面指導シーンを理解する程度を定量化する。
実験では、MLLMはタスク固有の微調整なしでも特殊ベースラインを上回り、命令的相互作用の全体的理解の約束を示唆している。
関連論文リスト
- Automated Feedback on Student-Generated UML and ER Diagrams Using Large Language Models [39.58317527488534]
LLMツールのプロトタイプであるDUET(Diamatic & ER Tutor)を紹介する。
参照ダイアグラムと学生が提出したダイアグラムをテキスト表現に変換し、違いに基づいて構造化されたフィードバックを提供する。
多段階のLCMパイプラインを使用して図を比較し、反射フィードバックを生成する。
自己指導型学習を奨励し、指導戦略を伝えることを目的として、教育者の分析的な洞察を可能にする。
論文 参考訳(メタデータ) (2025-07-31T11:49:01Z) - Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning [7.911608620021529]
マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。
現在のMLLMは、トレーニングデータにおける矛盾した向きアノテーションにより、画像内のオブジェクトの向きを正確に解釈する上で、課題に直面している。
本稿では,MLLMの向き理解とユーザの視点を一致させる,エゴセントリックな命令チューニングを提案する。
論文 参考訳(メタデータ) (2024-11-24T15:07:47Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。