Fugu-MT 論文翻訳(概要): NarrationBot and InfoBot: A Hybrid System for Automated Video Description

論文の概要: NarrationBot and InfoBot: A Hybrid System for Automated Video Description

arxiv url: http://arxiv.org/abs/2111.03994v1
Date: Sun, 7 Nov 2021 04:13:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-09 15:31:24.189875
Title: NarrationBot and InfoBot: A Hybrid System for Automated Video Description
Title（参考訳）: NarrationBotとInfoBot: 自動ビデオ記述のためのハイブリッドシステム
Authors: Shasta Ihorn, Yue-Ting Siu, Aditya Bodi, Lothar Narins, Jose M. Castanon, Yash Kant, Abhishek Das, Ilmi Yoon, Pooyan Fazli
Abstract要約: ビデオ記述を自動的に生成する2つのツールのハイブリッドシステムを開発した。本システムは,両ツールをタンデムで使用した場合に,ユーザの理解と,選択したビデオの楽しさを著しく向上させることを示した。本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を実証するものである。
参考スコア（独自算出の注目度）: 9.59921187620835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video accessibility is crucial for blind and low vision users for equitable engagements in education, employment, and entertainment. Despite the availability of professional and amateur services and tools, most human-generated descriptions are expensive and time consuming. Moreover, the rate of human-generated descriptions cannot match the speed of video production. To overcome the increasing gaps in video accessibility, we developed a hybrid system of two tools to 1) automatically generate descriptions for videos and 2) provide answers or additional descriptions in response to user queries on a video. Results from a mixed-methods study with 26 blind and low vision individuals show that our system significantly improved user comprehension and enjoyment of selected videos when both tools were used in tandem. In addition, participants reported no significant difference in their ability to understand videos when presented with autogenerated descriptions versus human-revised autogenerated descriptions. Our results demonstrate user enthusiasm about the developed system and its promise for providing customized access to videos. We discuss the limitations of the current work and provide recommendations for the future development of automated video description tools.
Abstract（参考訳）: ビデオアクセシビリティは、視覚障害者にとって教育、雇用、エンターテイメントにおける公平なエンゲージメントにとって不可欠である。プロやアマチュアのサービスやツールが利用できるにもかかわらず、人間による記述のほとんどは高価で時間を要する。さらに、人為的な記述の速度は、ビデオ制作の速度と一致しない。映像アクセシビリティのギャップを克服するために,2つのツールのハイブリッドシステムを開発した。 1)ビデオの記述を自動的に生成し、 2)ビデオ上のユーザクエリに応答して,回答や追加説明を提供する。 26名の視力・低視力者による混合手法による研究の結果,両ツールのタンデム使用時のユーザ理解とビデオの楽しさが有意に向上した。さらに、参加者は、自動生成記述と人間による修正自動生成記述とで、ビデオを理解する能力に有意な差はないと報告した。本研究は,開発システムに対するユーザの熱意と,ビデオへのカスタマイズされたアクセスを提供することの約束を示すものである。我々は,現在の作業の限界を議論し,自動ビデオ記述ツールの今後の開発に向けた勧告を提供する。

関連論文リスト

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Respond Beyond Language: A Benchmark for Video Generation in Response to Realistic User Intents [30.228721661677493]
RealVideoQuestは、リアルタイムで視覚的に接地されたクエリに応答するテキスト・ツー・ビデオ(T2V)モデルの能力を評価するように設計されている。ビデオ応答インテントで7.5Kの実際のユーザクエリを特定し、4.5Kの高品質なクエリとビデオのペアを構築する。実験によると、現在のT2Vモデルは、実際のユーザクエリに効果的に対処するのに苦労している。
論文参考訳（メタデータ） (2025-06-02T13:52:21Z)
Vid2Coach: Transforming How-To Videos into Task Assistants [51.729869497134885]
我々は、ハウツービデオをウェアラブルカメラベースのアシスタントに変換するシステムVid2Coachを提案する。 Vid2Coachは、各ステップのデモの詳細と完了基準を付加して、アクセス可能な命令を生成する。次に、BLV固有のリソースから関連する非視覚的回避策を抽出するために、検索増強世代を使用する。
論文参考訳（メタデータ） (2025-05-31T21:28:50Z)
VideoMix: Aggregating How-To Videos for Task-Oriented Learning [36.183779096566276]
VideoMixは、ユーザーがタスク上の複数のビデオから情報を集約することでハウツータスクの全体的理解を得るのを助けるシステムである。 Vision-Language Modelパイプラインによって提供されるVideoMixはこの情報を抽出し、整理し、関連するビデオクリップとともに簡潔なテキスト要約を提示する。
論文参考訳（メタデータ） (2025-03-27T03:43:02Z)
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文参考訳（メタデータ） (2025-03-04T07:04:55Z)
ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文参考訳（メタデータ） (2024-08-01T16:13:07Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。 RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文参考訳（メタデータ） (2024-03-10T03:29:56Z)
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition [48.456059482589495]
本研究では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。
論文参考訳（メタデータ） (2023-05-21T11:51:09Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions [30.650879247687747]
動画からダイナミックなシーンを伝えるビデオキャプションは、自然言語の理解を深める。本稿では,より包括的なビデオ記述を作成するための革新的なアプローチであるVideo ChatCaptionerを紹介する。
論文参考訳（メタデータ） (2023-04-09T12:46:18Z)
CLUE: Contextualised Unified Explainable Learning of User Engagement in Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文参考訳（メタデータ） (2022-01-14T19:51:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。