論文の概要: Rule-Based Reinforcement Learning for Document Image Classification with Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.22283v1
- Date: Fri, 26 Sep 2025 12:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.428066
- Title: Rule-Based Reinforcement Learning for Document Image Classification with Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた文書画像分類のためのルールベース強化学習
- Authors: Michael Jungo, Andreas Fischer,
- Abstract要約: 文書画像分類におけるルールベース強化学習の効果について検討する。
強化学習は、分布外データよりも一般化能力が高い傾向にある。
- 参考スコア(独自算出の注目度): 0.5565728870245015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rule-based reinforcement learning has been gaining popularity ever since DeepSeek-R1 has demonstrated its success through simple verifiable rewards. In the domain of document analysis, reinforcement learning is not as prevalent, even though many downstream tasks may benefit from the emerging properties of reinforcement learning, particularly the enhanced reason capabilities. We study the effects of rule-based reinforcement learning with the task of Document Image Classification which is one of the most commonly studied downstream tasks in document analysis. We find that reinforcement learning tends to have better generalisation capabilities to out-of-distritbution data, which we examine in three different scenarios, namely out-of-distribution images, unseen classes and different modalities. Our code is available at https://github.com/jungomi/vision-finetune.
- Abstract(参考訳): ルールベースの強化学習は、DeepSeek-R1が単純な検証可能な報酬を通じてその成功を実証して以来、人気を集めている。
文書分析の分野では、強化学習の新たな特性、特に強化された理由能力から多くの下流タスクが恩恵を受けるとしても、強化学習はそれほど一般的ではない。
本稿では,文書解析において最もよく研究されている下流課題の一つである文書画像分類タスクを用いて,ルールに基づく強化学習の効果について検討する。
強化学習は、分布外データに対してより良い一般化能力を持つ傾向にあり、分布外画像、見当たらないクラス、異なるモダリティの3つの異なるシナリオで検証する。
私たちのコードはhttps://github.com/jungomi/vision-finetune.comで利用可能です。
関連論文リスト
- PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z) - Self-Augmentation: Generalizing Deep Networks to Unseen Classes for
Few-Shot Learning [21.3564383157159]
ほとんどショット学習は、未確認のクラスをいくつかのトレーニング例で分類することを目的としている。
自己混合と自己蒸留を統合した自己拡張を提案する。
本稿では,未確認クラスの学習例をさらに活用するために,局所学習者表現を提案する。
論文 参考訳(メタデータ) (2020-04-01T06:39:08Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。