Fugu-MT 論文翻訳(概要): VKIE: The Application of Key Information Extraction on Video Text

論文の概要: VKIE: The Application of Key Information Extraction on Video Text

arxiv url: http://arxiv.org/abs/2310.11650v1
Date: Wed, 18 Oct 2023 01:28:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 11:55:41.630888
Title: VKIE: The Application of Key Information Extraction on Video Text
Title（参考訳）: VKIE:ビデオテキストにおけるキー情報抽出の応用
Authors: Siyu An, Ye Liu, Haoyuan Peng and Di Yin
Abstract要約: 本稿では,ビデオの視覚的テキストから階層的な鍵情報を抽出する重要なタスクを定義する。我々はPipVKIEとUniVKIEという2つの実装ソリューションを紹介した。 PipVKIEは4つのサブタスクを連続的に完了させ、UniVKIEはすべてのサブタスクを1つのバックボーンに統一することで改善する。
参考スコア（独自算出の注目度）: 5.359034871788775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extracting structured information from videos is critical for numerous downstream applications in the industry. In this paper, we define a significant task of extracting hierarchical key information from visual texts on videos. To fulfill this task, we decouples it into four subtasks and introduce two implementation solutions called PipVKIE and UniVKIE. PipVKIE sequentially completes the four subtasks in continuous stages, while UniVKIE is improved by unifying all the subtasks into one backbone. Both PipVKIE and UniVKIE leverage multimodal information from vision, text, and coordinates for feature representation. Extensive experiments on one well-defined dataset demonstrate that our solutions can achieve remarkable performance and efficient inference speed. The code and dataset will be publicly available.
Abstract（参考訳）: ビデオから構造化された情報を抽出することは、業界内の多くのダウンストリームアプリケーションにとって重要である。本稿では,ビデオの視覚テキストから階層的な鍵情報を抽出する重要なタスクを定義する。これを4つのサブタスクに分割し,PipVKIEとUniVKIEという2つの実装ソリューションを導入する。 PipVKIEは4つのサブタスクを連続的に完了し、UniVKIEはすべてのサブタスクを1つのバックボーンに統合することで改善する。 PipVKIE と UniVKIE は、視覚、テキスト、および特徴表現のための座標からのマルチモーダル情報を利用する。 1つのよく定義されたデータセットに対する大規模な実験は、我々のソリューションが優れた性能と効率的な推論速度を達成することを実証している。コードとデータセットは公開される予定だ。

関連論文リスト

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.43882565434444]
VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
論文参考訳（メタデータ） (2025-07-07T00:51:57Z)
MS4UI: A Dataset for Multi-modal Summarization of User Interface Instructional Videos [77.59558834294134]
本研究の目的は,テキスト・インストラクションとキー・ビデオ・フレームの形式での学習を効果的に行うための指導ビデオのマルチモーダル・サマリゼーションをユーザに提供することである。このギャップを埋めるために,ユーザインタフェース(UI)の命令映像要約のための新しいベンチマークを提案する。 2,413のUIインストラクショナルビデオのデータセットを収集し、167時間以上にわたっています。
論文参考訳（メタデータ） (2025-06-14T20:39:32Z)
MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed [55.526939500742]
我々はTevatron 2.0ツールキットの強力なマルチモーダル埋め込みモデルであるOmniEmbedを使用して、テキスト、画像、オーディオ、ビデオの統一埋め込みを生成する。 2025年5月20日時点の公募では、MAGMaRのタスクリーダーボードの最高スコアを達成しました。
論文参考訳（メタデータ） (2025-06-11T05:40:26Z)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。 BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文参考訳（メタデータ） (2024-06-24T03:55:25Z)
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [76.26890864487933]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。既存のデータセットのほとんどは、ビデオ間要約用に作成されている。マルチモーダル映像要約への取り組みが近年行われている。
論文参考訳（メタデータ） (2024-04-18T17:32:46Z)
A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文参考訳（メタデータ） (2023-12-04T02:17:14Z)
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-06-08T15:17:04Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
One-shot Key Information Extraction from Document with Deep Partial Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。 KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文参考訳（メタデータ） (2021-09-26T07:45:53Z)
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文参考訳（メタデータ） (2021-05-20T08:56:33Z)
DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文参考訳（メタデータ） (2021-05-13T17:33:26Z)
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。 VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文参考訳（メタデータ） (2021-01-24T11:05:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。