Fugu-MT 論文翻訳(概要): Multimodal Adaptive Inference for Document Image Classification with Anytime Early Exiting

論文の概要: Multimodal Adaptive Inference for Document Image Classification with Anytime Early Exiting

arxiv url: http://arxiv.org/abs/2405.12705v1
Date: Tue, 21 May 2024 11:52:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 13:39:22.787559
Title: Multimodal Adaptive Inference for Document Image Classification with Anytime Early Exiting
Title（参考訳）: 早期退行を考慮した文書画像分類のためのマルチモーダル適応推論
Authors: Omar Hamed, Souhail Bakkali, Marie-Francine Moens, Matthew Blaschko, Jordy Van Landeghem,
Abstract要約: この作業は、視覚的にリッチな文書理解タスクのためのスケーラブルな運用環境におけるパフォーマンスと効率のバランスのとれたアプローチの必要性に対処する。本稿では,様々なトレーニング戦略,出口層タイプ,配置を組み込んだマルチモーダル早期退避モデルを提案する。本研究は,性能と効率を両立させることにより,実用的なVDU応用に寄与する。
参考スコア（独自算出の注目度）: 19.440286956878065
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work addresses the need for a balanced approach between performance and efficiency in scalable production environments for visually-rich document understanding (VDU) tasks. Currently, there is a reliance on large document foundation models that offer advanced capabilities but come with a heavy computational burden. In this paper, we propose a multimodal early exit (EE) model design that incorporates various training strategies, exit layer types and placements. Our goal is to achieve a Pareto-optimal balance between predictive performance and efficiency for multimodal document image classification. Through a comprehensive set of experiments, we compare our approach with traditional exit policies and showcase an improved performance-efficiency trade-off. Our multimodal EE design preserves the model's predictive capabilities, enhancing both speed and latency. This is achieved through a reduction of over 20% in latency, while fully retaining the baseline accuracy. This research represents the first exploration of multimodal EE design within the VDU community, highlighting as well the effectiveness of calibration in improving confidence scores for exiting at different layers. Overall, our findings contribute to practical VDU applications by enhancing both performance and efficiency.
Abstract（参考訳）: この作業は、視覚的にリッチな文書理解(VDU)タスクのためのスケーラブルな運用環境におけるパフォーマンスと効率のバランスのとれたアプローチの必要性に対処する。現在、高度な能力を提供するが、重い計算負担を伴う大規模なドキュメント基盤モデルに依存している。本稿では,様々なトレーニング戦略,出口層タイプ,配置を組み込んだマルチモーダル早期退避モデルを提案する。本研究の目的は,マルチモーダル文書画像分類における予測性能と効率のパレート最適バランスを実現することである。包括的な実験を通じて、我々のアプローチを従来のエグジットポリシーと比較し、パフォーマンス効率のトレードオフの改善を示す。私たちのマルチモーダルEE設計は、モデルの予測能力を保ち、スピードとレイテンシの両方を向上します。これは、ベースライン精度を完全に維持しながら、20%以上のレイテンシの削減によって達成される。この研究は、VDUコミュニティにおけるマルチモーダルEE設計の初めての調査であり、異なるレイヤでの離脱に対する信頼性スコアの改善におけるキャリブレーションの有効性を強調している。全体として,本研究の成果は,性能と効率を両立させることにより,実用的なVDU応用に寄与する。

関連論文リスト

PP-DocBee2: Improved Baselines with Efficient Data for Multimodal Document Understanding [2.778335169230448]
PP-DocBee2は、マルチモーダル文書理解を強化するために設計されたPP-DocBeeの高度なバージョンである。 PP-DocBee2は、大規模なマルチモーダルモデルアーキテクチャに基づいて構築され、主要な技術的改善を通じて、前者の限界に対処する。これらの拡張により、中国のビジネス文書の内部ベンチマークのパフォーマンスが11.4%向上し、バニラバージョンに対する推論遅延が73.0%削減された。
論文参考訳（メタデータ） (2025-06-22T13:06:13Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Hateful Meme Detection through Context-Sensitive Prompting and Fine-Grained Labeling [9.166963162285064]
複雑なタスクにおけるモデル最適化のためのエンドツーエンドの概念フレームワークを提案する。実験は、この伝統的な新しいフレームワークの有効性をサポートし、高い精度とAUROCを達成する。
論文参考訳（メタデータ） (2024-11-13T08:05:41Z)
Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文参考訳（メタデータ） (2024-10-16T17:59:49Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。 ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文参考訳（メタデータ） (2024-09-12T05:55:32Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark [97.8968058408759]
事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに顕著な適応性を示した。これらのモデルが数十億または数兆のパラメータにスケールするにつれて、計算と記憶の要求が高いため、従来の完全な微調整はますます非現実的になっている。パラメータ効率の良いファインチューニング(PEFT)は、モデルパラメータを最小限に調整しながら、完全なファインチューニングに匹敵するパフォーマンスを実現するための、有望な代替手段として登場した。
論文参考訳（メタデータ） (2024-02-03T19:12:20Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T17:48:09Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。