論文の概要: Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review
- arxiv url: http://arxiv.org/abs/2103.14785v1
- Date: Sat, 27 Mar 2021 02:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:26:16.445630
- Title: Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review
- Title(参考訳): 映像からテキストへの視点で見る視覚と言語 : 包括的なレビュー
- Authors: Jesus Perez-Martin and Benjamin Bustos and Silvio Jamil F. Guimar\~aes
and Ivan Sipiran and Jorge P\'erez and Grethel Coello Said
- Abstract要約: 本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
- 参考スコア(独自算出の注目度): 1.0520692160489133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in the area of Vision and Language encompasses challenging topics
that seek to connect visual and textual information. The video-to-text problem
is one of these topics, in which the goal is to connect an input video with its
textual description. This connection can be mainly made by retrieving the most
significant descriptions from a corpus or generating a new one given a context
video. These two ways represent essential tasks for Computer Vision and Natural
Language Processing communities, called text retrieval from video task and
video captioning/description task. These two tasks are substantially more
complex than predicting or retrieving a single sentence from an image. The
spatiotemporal information present in videos introduces diversity and
complexity regarding the visual content and the structure of associated
language descriptions. This review categorizes and describes the
state-of-the-art techniques for the video-to-text problem. It covers the main
video-to-text methods and the ways to evaluate their performance. We analyze
how the most reported benchmark datasets have been created, showing their
drawbacks and strengths for the problem requirements. We also show the
impressive progress that researchers have made on each dataset, and we analyze
why, despite this progress, the video-to-text conversion is still unsolved.
State-of-the-art techniques are still a long way from achieving human-like
performance in generating or retrieving video descriptions. We cover several
significant challenges in the field and discuss future research directions.
- Abstract(参考訳): 視覚と言語の研究は、視覚情報とテキスト情報を結びつけようとする挑戦的なトピックを含んでいる。
ビデオからテキストへの問題はこれらのトピックの1つであり、そのゴールは入力されたビデオとテキスト記述を結びつけることである。
この接続は主に、コーパスから最も重要な記述を取得するか、コンテキストビデオが与えられた新しい記述を生成することで作成できる。
これら2つの方法は、ビデオタスクからのテキスト検索とビデオキャプション/記述タスクと呼ばれる、コンピュータビジョンと自然言語処理コミュニティにとって不可欠なタスクである。
これら2つのタスクは、画像から1つの文を予測または検索するよりも、はるかに複雑である。
ビデオに含まれる時空間情報は、視覚内容と関連する言語記述の構造に関する多様性と複雑さをもたらす。
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
我々は、最も報告されたベンチマークデータセットがどのように作成されたかを分析し、問題要件に対するその欠点と強みを示します。
また、各データセットで研究者が行った驚くべき進歩も示しており、この進歩にもかかわらず、ビデオからテキストへの変換はまだ未解決である理由を分析しています。
最先端の技術は、ビデオ記述の生成や検索において人間のようなパフォーマンスを達成するにはまだまだ長い道のりです。
この分野におけるいくつかの重要な課題を取り上げ,今後の研究方向性について論じる。
関連論文リスト
- In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Understanding Video Scenes through Text: Insights from Text-based Video
Question Answering [40.01623654896573]
本稿では,最近導入された2つのデータセットであるNewsVideoQAとM4-ViteVQAについて検討する。
本稿では,これらのデータセットの様々なレベルでの定式化の分析を行い,その解答に必要な視覚的理解度と多フレーム理解度について検討する。
論文 参考訳(メタデータ) (2023-09-04T06:11:00Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - A Comprehensive Review on Recent Methods and Challenges of Video
Description [11.69687792533269]
ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。
視覚障害者のための言語と視覚のギャップを埋めることで、映像記述の様々な応用がある。
過去10年間に、ビデオ記述、評価メトリクス、データセットのアプローチ/方法に関して、この分野でいくつかの研究が行われてきた。
論文 参考訳(メタデータ) (2020-11-30T13:08:45Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。