論文の概要: NVIDIA Nemotron Parse 1.1
- arxiv url: http://arxiv.org/abs/2511.20478v1
- Date: Tue, 25 Nov 2025 16:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.556241
- Title: NVIDIA Nemotron Parse 1.1
- Title(参考訳): NVIDIA Nemotron Parse 1.1
- Authors: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro,
- Abstract要約: Nemotron-Parse-1.1は軽量な文書解析とOCRモデルである。
一般的なOCR、マークダウンフォーマット、構造化テーブル解析、画像、チャート、ダイアグラムからのテキスト抽出など、改善された機能を提供する。
我々は、より広範なNemotron-VLM-v2データセットの一部として、トレーニングデータのサブセットとともに、Huggingfaceのモデルウェイトと最適化されたNIMコンテナを公開しています。
- 参考スコア(独自算出の注目度): 52.606919439457705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.
- Abstract(参考訳): 我々はNemotron-Parse-1.1を紹介した。これは軽量なドキュメント解析とOCRモデルで、前任者のNemoretriever-Parse-1.0の能力を向上する。
Nemotron-Parse-1.1は、一般的なOCR、マークダウンフォーマット、構造化テーブル解析、画像、チャート、ダイアグラムからのテキスト抽出の改善機能を提供する。
また、視覚的に密集したドキュメントに対して、より長い出力シーケンス長をサポートする。
前者と同様に、テキストセグメントのバウンディングボックスと対応するセマンティッククラスを抽出する。
Nemotron-Parse-1.1は885Mパラメータを持つエンコーダ・デコーダアーキテクチャに従う。
公開ベンチマークで競合する精度を実現し、強力な軽量OCRソリューションとなっている。
我々は、より広範なNemotron-VLM-v2データセットの一部として、トレーニングデータのサブセットとともに、Huggingfaceのモデルウェイトと最適化されたNIMコンテナを公開しています。
また,視力トークン長の低減を図ったNemotron-Parse-1.1-TCをリリースし,品質劣化を最小限に抑えながら20%の速度向上を実現した。
関連論文リスト
- MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - Temporal Alignment Networks for Long-term Video [103.69904379356413]
本稿では,長時間のビデオシーケンスと関連するテキストを取り込み,時間的アライメントネットワークを提案する。
我々は、関連するテキストが大きなノイズを持つHowTo100Mのような大規模データセットから、そのようなネットワークをトレーニングする。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上での強いベースライン(CLIP, MIL-NCE)を上回った。
論文 参考訳(メタデータ) (2022-04-06T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。