Fugu-MT 論文翻訳(概要): VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

論文の概要: VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

arxiv url: http://arxiv.org/abs/2601.05125v1
Date: Thu, 08 Jan 2026 17:15:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 17:01:53.298629
Title: VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding
Title（参考訳）: VERSE:ビジュアル埋め込みの削減と空間探索 : クラスタリングガイドによるビジュアルリッチ文書理解のためのデータ強化
Authors: Ignacio de Rodrigo, Alvaro J. Lopez-Lopez, Jaime Boal,
Abstract要約: VERSEはエラーが発生しやすいクラスタに関連する視覚的特徴を明らかにするのに役立つ。 DonutやIdefics2のようなオンプレミスモデルは、VERSEで最適化されると、GPT-4やPixtralのようなソリューションのパフォーマンスを上回る。
参考スコア（独自算出の注目度）: 2.7273279761148976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work introduces VERSE, a methodology for analyzing and improving Vision-Language Models applied to Visually-rich Document Understanding by exploring their visual embedding space. VERSE enables the visualization of latent representations, supporting the assessment of model feasibility. It also facilitates the identification of problematic regions and guides the generation of synthetic data to enhance performance in those clusters. We validate the methodology by training on the synthetic MERIT Dataset and evaluating on its real-world counterpart, MERIT Secret. Results show that VERSE helps uncover the visual features associated with error-prone clusters, and that retraining with samples containing these features substantially boosts F1 performance without degrading generalization. Furthermore, we demonstrate that on-premise models such as Donut and Idefics2, when optimized with VERSE, match or even surpass the performance of SaaS solutions like GPT-4 and Pixtral.
Abstract（参考訳）: この研究は、視覚的な埋め込み空間を探索することによって、視覚的にリッチな文書理解に適用される視覚言語モデルの分析と改善のための方法論であるVERSEを紹介する。 VERSEは潜在表現の可視化を可能にし、モデル実現可能性の評価をサポートする。また、問題領域の同定を促進し、それらのクラスタのパフォーマンスを高めるために合成データの生成を誘導する。本手法は,合成MERITデータセットをトレーニングし,実世界のMERITシークレットを評価することで検証する。その結果、VERSEは、エラーが発生しやすいクラスタに関連する視覚的特徴を明らかにするのに役立ち、これらの特徴を含むサンプルによる再トレーニングは、一般化を劣化させることなく、F1のパフォーマンスを大幅に向上させることがわかった。さらに、DonutやIdefics2といったオンプレミスモデルがVERSEで最適化されると、GPT-4やPixtralといったSaaSソリューションのパフォーマンスにマッチするか、さらに上回っていることを実証します。

関連論文リスト

Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文参考訳（メタデータ） (2025-11-18T18:50:26Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文参考訳（メタデータ） (2023-10-23T10:37:22Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文参考訳（メタデータ） (2022-04-14T22:58:30Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。