論文の概要: Vid2Coach: Transforming How-To Videos into Task Assistants
- arxiv url: http://arxiv.org/abs/2506.00717v1
- Date: Sat, 31 May 2025 21:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.504468
- Title: Vid2Coach: Transforming How-To Videos into Task Assistants
- Title(参考訳): Vid2Coach:ハウツービデオをタスクアシスタントに変換する
- Authors: Mina Huh, Zihui Xue, Ujjaini Das, Kumar Ashutosh, Kristen Grauman, Amy Pavel,
- Abstract要約: 我々は、ハウツービデオをウェアラブルカメラベースのアシスタントに変換するシステムVid2Coachを提案する。
Vid2Coachは、各ステップのデモの詳細と完了基準を付加して、アクセス可能な命令を生成する。
次に、BLV固有のリソースから関連する非視覚的回避策を抽出するために、検索増強世代を使用する。
- 参考スコア(独自算出の注目度): 51.729869497134885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People use videos to learn new recipes, exercises, and crafts. Such videos remain difficult for blind and low vision (BLV) people to follow as they rely on visual comparison. Our observations of visual rehabilitation therapists (VRTs) guiding BLV people to follow how-to videos revealed that VRTs provide both proactive and responsive support including detailed descriptions, non-visual workarounds, and progress feedback. We propose Vid2Coach, a system that transforms how-to videos into wearable camera-based assistants that provide accessible instructions and mixed-initiative feedback. From the video, Vid2Coach generates accessible instructions by augmenting narrated instructions with demonstration details and completion criteria for each step. It then uses retrieval-augmented-generation to extract relevant non-visual workarounds from BLV-specific resources. Vid2Coach then monitors user progress with a camera embedded in commercial smart glasses to provide context-aware instructions, proactive feedback, and answers to user questions. BLV participants (N=8) using Vid2Coach completed cooking tasks with 58.5\% fewer errors than when using their typical workflow and wanted to use Vid2Coach in their daily lives. Vid2Coach demonstrates an opportunity for AI visual assistance that strengthens rather than replaces non-visual expertise.
- Abstract(参考訳): 人々はビデオを使って新しいレシピ、エクササイズ、工芸を学ぶ。
このようなビデオは、視覚的比較に頼って、視覚障害者(BLV)がフォローするのは難しいままである。
BLV患者にハウツービデオの追跡を指導する視覚リハビリテーションセラピスト(VRT)の観察から,VRTは詳細な説明,非視覚的回避,進捗フィードバックなど,積極的かつ応答的なサポートを提供することが明らかとなった。
我々は、ハウツービデオをウェアラブルカメラベースのアシスタントに変換するシステムVid2Coachを提案する。
ビデオから、Vid2Coachは、各ステップのデモの詳細と完了基準を付加して、アクセス可能な命令を生成する。
次に、BLV固有のリソースから関連する非視覚的回避策を抽出するために、検索増強世代を使用する。
Vid2Coachは、市販のスマートグラスに埋め込まれたカメラでユーザの進捗を監視し、コンテキスト認識の指示、積極的なフィードバック、ユーザの質問に対する回答を提供する。
Vid2Coachを使用したBLV参加者(N=8)は、一般的なワークフローを使用する場合よりも58.5\%少ないエラーで調理タスクを完了し、日常的にVid2Coachを使いたがった。
Vid2Coachは、非視覚的専門知識を置き換えるのではなく、強化されたAI視覚支援の機会を実演する。
関連論文リスト
- SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding [23.96372422130216]
ビデオベースのLarge Language Models (VideoVid-LLMs) は近年大きく進歩している。
彼らは細かな理解に苦しむが、特に視覚力学やビデオの詳細などの側面においてである。
これらの欠点に対処するため、自己監督的断片化タスクにおける細調整ビデオLLMは、そのきめ細かい映像理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T13:40:34Z) - PVChat: Personalized Video Chat with One-Shot Learning [15.328085576102106]
PVChatは単発の学習フレームワークで、被験者ごとに単一のビデオから回答できる。
提案手法は、合成強化ビデオQAデータセット上で、Mixture-of-Heads(MoH)拡張ViLLMを最適化する。
医療シナリオ,テレビシリーズ,アニメ,実世界の映像を対象とした多様なデータセットを用いてPVChatを評価した。
論文 参考訳(メタデータ) (2025-03-21T11:50:06Z) - Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Valley: Video Assistant with Large Language model Enhanced abilitY [46.90402681897982]
ビデオ理解の強化と指示追従機能を実現するために設計された,マルチモーダル基盤モデルであるValleyを紹介する。
我々の実験は、バレーが効果的なビデオアシスタントとして機能し、複雑なビデオ理解のシナリオを単純化する可能性を実証している。
論文 参考訳(メタデータ) (2023-06-12T16:11:10Z) - NarrationBot and InfoBot: A Hybrid System for Automated Video
Description [9.59921187620835]
ビデオ記述を自動的に生成する2つのツールのハイブリッドシステムを開発した。
本システムは,両ツールをタンデムで使用した場合に,ユーザの理解と,選択したビデオの楽しさを著しく向上させることを示した。
本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を実証するものである。
論文 参考訳(メタデータ) (2021-11-07T04:13:30Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z) - Translating Video Recordings of Mobile App Usages into Replayable
Scenarios [24.992877070869177]
V2Sは、Androidアプリのビデオ録画を再生可能なシナリオに変換するための、軽量で自動化されたアプローチである。
機能を実行するユーザから収集した3,534個のGUIベースのアクションと,80以上のAndroidアプリのバグを再現した175本のビデオを含む,V2Sの広範な評価を行った。
論文 参考訳(メタデータ) (2020-05-18T20:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。