論文の概要: VKIE: The Application of Key Information Extraction on Video Text
- arxiv url: http://arxiv.org/abs/2310.11650v1
- Date: Wed, 18 Oct 2023 01:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:55:41.630888
- Title: VKIE: The Application of Key Information Extraction on Video Text
- Title(参考訳): VKIE:ビデオテキストにおけるキー情報抽出の応用
- Authors: Siyu An, Ye Liu, Haoyuan Peng and Di Yin
- Abstract要約: 本稿では,ビデオの視覚的テキストから階層的な鍵情報を抽出する重要なタスクを定義する。
我々はPipVKIEとUniVKIEという2つの実装ソリューションを紹介した。
PipVKIEは4つのサブタスクを連続的に完了させ、UniVKIEはすべてのサブタスクを1つのバックボーンに統一することで改善する。
- 参考スコア(独自算出の注目度): 5.359034871788775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured information from videos is critical for numerous
downstream applications in the industry. In this paper, we define a significant
task of extracting hierarchical key information from visual texts on videos. To
fulfill this task, we decouples it into four subtasks and introduce two
implementation solutions called PipVKIE and UniVKIE. PipVKIE sequentially
completes the four subtasks in continuous stages, while UniVKIE is improved by
unifying all the subtasks into one backbone. Both PipVKIE and UniVKIE leverage
multimodal information from vision, text, and coordinates for feature
representation. Extensive experiments on one well-defined dataset demonstrate
that our solutions can achieve remarkable performance and efficient inference
speed. The code and dataset will be publicly available.
- Abstract(参考訳): ビデオから構造化された情報を抽出することは、業界内の多くのダウンストリームアプリケーションにとって重要である。
本稿では,ビデオの視覚テキストから階層的な鍵情報を抽出する重要なタスクを定義する。
これを4つのサブタスクに分割し,PipVKIEとUniVKIEという2つの実装ソリューションを導入する。
PipVKIEは4つのサブタスクを連続的に完了し、UniVKIEはすべてのサブタスクを1つのバックボーンに統合することで改善する。
PipVKIE と UniVKIE は、視覚、テキスト、および特徴表現のための座標からのマルチモーダル情報を利用する。
1つのよく定義されたデータセットに対する大規模な実験は、我々のソリューションが優れた性能と効率的な推論速度を達成することを実証している。
コードとデータセットは公開される予定だ。
関連論文リスト
- V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
Instruct-V2Xumは、YouTubeから3万の多様な動画を出力するクロスモーダルビデオ要約データセットである。
V2Xum-LLMは、ビデオ要約タスクを1つの大きな言語モデル(LLM)テキストデコーダに統合する最初のフレームワークである。
実験により、V2Xum-LLaMAは複数のビデオ要約タスクにおいて強力なベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - A Challenging Multimodal Video Summary: Simultaneously Extracting and
Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。
対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。
この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文 参考訳(メタデータ) (2023-12-04T02:17:14Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。