論文の概要: NarrationBot and InfoBot: A Hybrid System for Automated Video
Description
- arxiv url: http://arxiv.org/abs/2111.03994v1
- Date: Sun, 7 Nov 2021 04:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:31:24.189875
- Title: NarrationBot and InfoBot: A Hybrid System for Automated Video
Description
- Title(参考訳): NarrationBotとInfoBot: 自動ビデオ記述のためのハイブリッドシステム
- Authors: Shasta Ihorn, Yue-Ting Siu, Aditya Bodi, Lothar Narins, Jose M.
Castanon, Yash Kant, Abhishek Das, Ilmi Yoon, Pooyan Fazli
- Abstract要約: ビデオ記述を自動的に生成する2つのツールのハイブリッドシステムを開発した。
本システムは,両ツールをタンデムで使用した場合に,ユーザの理解と,選択したビデオの楽しさを著しく向上させることを示した。
本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を実証するものである。
- 参考スコア(独自算出の注目度): 9.59921187620835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video accessibility is crucial for blind and low vision users for equitable
engagements in education, employment, and entertainment. Despite the
availability of professional and amateur services and tools, most
human-generated descriptions are expensive and time consuming. Moreover, the
rate of human-generated descriptions cannot match the speed of video
production. To overcome the increasing gaps in video accessibility, we
developed a hybrid system of two tools to 1) automatically generate
descriptions for videos and 2) provide answers or additional descriptions in
response to user queries on a video. Results from a mixed-methods study with 26
blind and low vision individuals show that our system significantly improved
user comprehension and enjoyment of selected videos when both tools were used
in tandem. In addition, participants reported no significant difference in
their ability to understand videos when presented with autogenerated
descriptions versus human-revised autogenerated descriptions. Our results
demonstrate user enthusiasm about the developed system and its promise for
providing customized access to videos. We discuss the limitations of the
current work and provide recommendations for the future development of
automated video description tools.
- Abstract(参考訳): ビデオアクセシビリティは、視覚障害者にとって教育、雇用、エンターテイメントにおける公平なエンゲージメントにとって不可欠である。
プロやアマチュアのサービスやツールが利用できるにもかかわらず、人間による記述のほとんどは高価で時間を要する。
さらに、人為的な記述の速度は、ビデオ制作の速度と一致しない。
映像アクセシビリティのギャップを克服するために,2つのツールのハイブリッドシステムを開発した。
1)ビデオの記述を自動的に生成し、
2)ビデオ上のユーザクエリに応答して,回答や追加説明を提供する。
26名の視力・低視力者による混合手法による研究の結果,両ツールのタンデム使用時のユーザ理解とビデオの楽しさが有意に向上した。
さらに、参加者は、自動生成記述と人間による修正自動生成記述とで、ビデオを理解する能力に有意な差はないと報告した。
本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を示すものである。
我々は,現在の作業の限界を議論し,自動ビデオ記述ツールの今後の開発に向けた勧告を提供する。
関連論文リスト
- ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition [48.456059482589495]
本研究では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。
本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。
論文 参考訳(メタデータ) (2023-05-21T11:51:09Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions [30.650879247687747]
動画からダイナミックなシーンを伝えるビデオキャプションは、自然言語の理解を深める。
本稿では,より包括的なビデオ記述を作成するための革新的なアプローチであるVideo ChatCaptionerを紹介する。
論文 参考訳(メタデータ) (2023-04-09T12:46:18Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。