論文の概要: NarrationBot and InfoBot: A Hybrid System for Automated Video
Description
- arxiv url: http://arxiv.org/abs/2111.03994v1
- Date: Sun, 7 Nov 2021 04:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:31:24.189875
- Title: NarrationBot and InfoBot: A Hybrid System for Automated Video
Description
- Title(参考訳): NarrationBotとInfoBot: 自動ビデオ記述のためのハイブリッドシステム
- Authors: Shasta Ihorn, Yue-Ting Siu, Aditya Bodi, Lothar Narins, Jose M.
Castanon, Yash Kant, Abhishek Das, Ilmi Yoon, Pooyan Fazli
- Abstract要約: ビデオ記述を自動的に生成する2つのツールのハイブリッドシステムを開発した。
本システムは,両ツールをタンデムで使用した場合に,ユーザの理解と,選択したビデオの楽しさを著しく向上させることを示した。
本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を実証するものである。
- 参考スコア(独自算出の注目度): 9.59921187620835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video accessibility is crucial for blind and low vision users for equitable
engagements in education, employment, and entertainment. Despite the
availability of professional and amateur services and tools, most
human-generated descriptions are expensive and time consuming. Moreover, the
rate of human-generated descriptions cannot match the speed of video
production. To overcome the increasing gaps in video accessibility, we
developed a hybrid system of two tools to 1) automatically generate
descriptions for videos and 2) provide answers or additional descriptions in
response to user queries on a video. Results from a mixed-methods study with 26
blind and low vision individuals show that our system significantly improved
user comprehension and enjoyment of selected videos when both tools were used
in tandem. In addition, participants reported no significant difference in
their ability to understand videos when presented with autogenerated
descriptions versus human-revised autogenerated descriptions. Our results
demonstrate user enthusiasm about the developed system and its promise for
providing customized access to videos. We discuss the limitations of the
current work and provide recommendations for the future development of
automated video description tools.
- Abstract(参考訳): ビデオアクセシビリティは、視覚障害者にとって教育、雇用、エンターテイメントにおける公平なエンゲージメントにとって不可欠である。
プロやアマチュアのサービスやツールが利用できるにもかかわらず、人間による記述のほとんどは高価で時間を要する。
さらに、人為的な記述の速度は、ビデオ制作の速度と一致しない。
映像アクセシビリティのギャップを克服するために,2つのツールのハイブリッドシステムを開発した。
1)ビデオの記述を自動的に生成し、
2)ビデオ上のユーザクエリに応答して,回答や追加説明を提供する。
26名の視力・低視力者による混合手法による研究の結果,両ツールのタンデム使用時のユーザ理解とビデオの楽しさが有意に向上した。
さらに、参加者は、自動生成記述と人間による修正自動生成記述とで、ビデオを理解する能力に有意な差はないと報告した。
本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を示すものである。
我々は,現在の作業の限界を議論し,自動ビデオ記述ツールの今後の開発に向けた勧告を提供する。
関連論文リスト
- Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Video Understanding with Large Language Models: A Survey [101.91261236334486]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。
LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。
さまざまなドメインにまたがるVid-LLMの広範な応用を探求し、実際のビデオ理解の課題において、その顕著なスケーラビリティと汎用性を強調している。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions [30.650879247687747]
動画からダイナミックなシーンを伝えるビデオキャプションは、自然言語の理解を深める。
本稿では,より包括的なビデオ記述を作成するための革新的なアプローチであるVideo ChatCaptionerを紹介する。
論文 参考訳(メタデータ) (2023-04-09T12:46:18Z) - Combating Online Misinformation Videos: Characterization, Detection, and
Future Directions [13.960032991158402]
ビデオベースの誤報は、オンライン情報エコシステムの健全性に新たな脅威をもたらす。
まず、信号、意味、意図を含む3つのレベルから誤情報映像を分析し、特徴付ける。
代表的なデータセットや有用なツールを含む既存のリソースを紹介します。
論文 参考訳(メタデータ) (2023-02-07T04:03:55Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。