論文の概要: TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
- arxiv url: http://arxiv.org/abs/2512.01248v1
- Date: Mon, 01 Dec 2025 03:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.674332
- Title: TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
- Title(参考訳): TRivia: テーブル認識のための視覚言語モデルの自己教師型微調整
- Authors: Junyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He,
- Abstract要約: テーブル認識(TR)は、テーブルイメージをHTMLやマークダウンなどの半構造化表現に変換することを目的としている。
我々は、事前学習された視覚言語モデルで、ラベルのないテーブルイメージから直接TRを学習できる自己教師型微調整手法であるTRiviaを紹介する。
我々は,既存のシステムを超越した,オープンソースでコンパクトで最先端のTRモデルであるTRivia-3Bを提案する。
- 参考スコア(独自算出の注目度): 54.85932472676512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia
- Abstract(参考訳): テーブル認識(TR)は、テーブルイメージをHTMLやMarkdownのような半構造化表現に変換することを目的としている。
文書解析のコアコンポーネントとして、TRは長い間教師あり学習に依存しており、近年の取り組みはラベル付きデータを用いた微調整視覚言語モデル(VLM)が中心となっている。
VLMはTRを次のレベルに持ち込んでいるが、パフォーマンスをさらに向上させるためには、高コストな大規模ラベル付きデータが必要である。
その結果、プロプライエタリなモデルは継続的にパフォーマンスの境界を押し上げていますが、限られたリソースでトレーニングされるオープンソースモデルは、実際には、プライバシ規制のため、多くの人にとって唯一実行可能な選択肢であり、まだ遅れています。
このギャップを埋めるために、未学習のVLMが野生の未ラベルのテーブルイメージから直接TRを学習できる自己教師型微調整手法であるTRiviaを導入する。
グループ相対的ポリシー最適化に基づいてTRiviaは、学習を最も効果的に促進し、質問回答に基づく報酬メカニズムを通じて人間のアノテーションの必要性を排除する、ラベルのないサンプルを自動的に識別する。
注意誘導モジュールは、各表画像に対して多様な質問を生成し、認識結果を解釈し、それを正しく答える能力は、TRモデルを最適化するためのフィードバックを提供する。
このクローズドループプロセスにより、TRモデルはラベル付きデータなしでテーブルの認識、構造、理性を学ぶことができる。
このパイプラインを活用したTRivia-3Bは、既存のシステム(Gemini 2.5 Pro、MinerU2.5など)を3つの人気のあるベンチマークで上回る、オープンソースでコンパクトで最先端のTRモデルです。
モデルとコードは、https://github.com/opendatalab/TRiviaでリリースされます。
関連論文リスト
- Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2254432364736]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。
クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。
公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。
データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文 参考訳(メタデータ) (2025-11-10T02:26:14Z) - TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - UniTable: Towards a Unified Framework for Table Recognition via Self-Supervised Pretraining [22.031699293366486]
テーブル認識のトレーニングパラダイムとトレーニング目標を統合するためのトレーニングフレームワークであるUniTableを提案する。
本フレームワークは,3つのTRタスクの学習目標を,タスク非依存の訓練目標である言語モデリングに統一する。
UniTableのテーブル解析機能は、既存のTRメソッドと一般的な視覚言語モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-03-07T15:44:50Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。