論文の概要: TutoAI: A Cross-domain Framework for AI-assisted Mixed-media Tutorial
Creation on Physical Tasks
- arxiv url: http://arxiv.org/abs/2403.08049v1
- Date: Tue, 12 Mar 2024 19:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:22.621696
- Title: TutoAI: A Cross-domain Framework for AI-assisted Mixed-media Tutorial
Creation on Physical Tasks
- Title(参考訳): TutoAI: AI支援ミックスメディアチュートリアルのためのクロスドメインフレームワーク
物理課題の創出
- Authors: Yuexi Chen, Vlad I. Morariu, Anh Truong, Zhicheng Liu
- Abstract要約: TutoAIは、物理的なタスクでAI支援のミックスメディアチュートリアルを作成するためのクロスドメインフレームワークである。
既存の作業を調査することで、一般的なチュートリアルコンポーネントを蒸留する。
コンポーネント抽出のためのAIモデルを特定し,組み立て,評価する手法を提案する。
- 参考スコア(独自算出の注目度): 18.999028085376594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed-media tutorials, which integrate videos, images, text, and diagrams to
teach procedural skills, offer more browsable alternatives than timeline-based
videos. However, manually creating such tutorials is tedious, and existing
automated solutions are often restricted to a particular domain. While AI
models hold promise, it is unclear how to effectively harness their powers,
given the multi-modal data involved and the vast landscape of models. We
present TutoAI, a cross-domain framework for AI-assisted mixed-media tutorial
creation on physical tasks. First, we distill common tutorial components by
surveying existing work; then, we present an approach to identify, assemble,
and evaluate AI models for component extraction; finally, we propose guidelines
for designing user interfaces (UI) that support tutorial creation based on
AI-generated components. We show that TutoAI has achieved higher or similar
quality compared to a baseline model in preliminary user studies.
- Abstract(参考訳): ビデオ、画像、テキスト、ダイアグラムを統合してプロシージャスキルを教えるミックスメディアチュートリアルは、タイムラインベースのビデオよりもブラウズ可能な代替手段を提供する。
しかし、このようなチュートリアルを手動で作成するのは面倒で、既存の自動化ソリューションは特定のドメインに制限されることが多い。
AIモデルは約束を守っているが、マルチモーダルデータとモデルの広大な風景を考えると、その能力を効果的に活用する方法は不明だ。
物理タスクにおけるAI支援複合メディアチュートリアル作成のためのクロスドメインフレームワークであるTutoAIを紹介する。
まず、既存の作業を調査し、一般的なチュートリアルコンポーネントを蒸留し、次に、コンポーネント抽出のためのAIモデルを特定し、組み立て、評価するアプローチを提案し、最後に、AI生成コンポーネントに基づいたチュートリアル作成をサポートするユーザーインターフェース(UI)を設計するためのガイドラインを提案する。
予備的なユーザスタディにおいて,TutoAIはベースラインモデルよりも高い,あるいは類似した品質を実現していることを示す。
関連論文リスト
- CoProNN: Concept-based Prototypical Nearest Neighbors for Explaining Vision Models [1.0855602842179624]
ドメインエキスパートが自然言語で直感的にコンピュータビジョンタスクのコンセプトベースの説明を素早く作成できる新しいアプローチを提案する。
CoProNNのモジュラー設計は実装が簡単で、新しいタスクに適応しやすく、分類とテキスト・トゥ・イメージ・モデルを置き換えることができる。
我々の戦略は、粗粒度画像分類タスクにおける他の概念ベースのXAIアプローチと非常によく競合し、さらに細粒度細粒度タスクにおいてそれらの手法よりも優れることを示した。
論文 参考訳(メタデータ) (2024-04-23T08:32:38Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - How to Build an AI Tutor that Can Adapt to Any Course and Provide Accurate Answers Using Large Language Model and Retrieval-Augmented Generation [0.0]
OpenAI Assistants APIにより、AI Tutorは、ファイルやチャット履歴を簡単に埋め込み、保存、検索、管理できる。
AI Tutorのプロトタイプは、ソースの引用で関連性があり正確な回答を生成する能力を示している。
論文 参考訳(メタデータ) (2023-11-29T15:02:46Z) - Vision Encoder-Decoder Models for AI Coaching [0.0]
本手法の有効性は,エンコーダとしてビジョントランスフォーマー,デコーダとしてGPT-2を用いて実証する。
我々の統合アーキテクチャは入力画像を直接処理し、AIコーチとの自然な質問と回答の対話を可能にする。
論文 参考訳(メタデータ) (2023-11-09T09:06:21Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with
Millions of APIs [71.7495056818522]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。
このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文 参考訳(メタデータ) (2023-03-29T03:30:38Z) - Build-a-Bot: Teaching Conversational AI Using a Transformer-Based Intent
Recognition and Question Answering Architecture [15.19996462016215]
本稿では、自然言語パイプラインを用いて、独自の学校カリキュラムに基づく質問に答えるためにカスタマイズされたモデルを訓練することで、人工知能の原理を学習するためのインタフェースを提案する。
このパイプラインは、AIエージェントを作成しながら、これらのプロセスのそれぞれを通じて、学生のデータ収集、データ拡張、意図認識、質問応答を教える。
論文 参考訳(メタデータ) (2022-12-14T22:57:44Z) - Instance As Identity: A Generic Online Paradigm for Video Instance
Segmentation [84.3695480773597]
我々はインスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。
IAIは、検出と追跡の両方の時間情報を効率的な方法でモデル化する。
3つのVISベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-05T10:29:30Z) - MONAI Label: A framework for AI-assisted Interactive Labeling of 3D
Medical Images [49.664220687980006]
注釈付きデータセットの欠如は、タスク固有の教師付き機械学習モデルをトレーニングする上で、大きなボトルネックとなる。
本稿では,人工知能(AI)モデルに基づくアプリケーション開発を支援する,フリーかつオープンソースなフレームワークであるmonAI Labelを紹介する。
論文 参考訳(メタデータ) (2022-03-23T12:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。