論文の概要: LaFiCMIL: Rethinking Large File Classification from the Perspective of
Correlated Multiple Instance Learning
- arxiv url: http://arxiv.org/abs/2308.01413v3
- Date: Mon, 12 Feb 2024 20:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:45:30.659453
- Title: LaFiCMIL: Rethinking Large File Classification from the Perspective of
Correlated Multiple Instance Learning
- Title(参考訳): LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考
- Authors: Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawend\'e F.
Bissyand\'e, Jacques Klein
- Abstract要約: 本稿では,大規模ファイル分類に特化して設計されたLaFiCMILを紹介する。
LaFiCMILは1つのGPU上での効率的な操作に最適化されており、バイナリ、マルチクラス、マルチラベルの分類タスクのための汎用的なソリューションとなっている。
このアプローチの注目すべき成果は、32GBのメモリを持つ単一のGPU上で動作しながら、BERTを2万近いトークンを扱うようにスケールできることである。
- 参考スコア(独自算出の注目度): 5.302807960108778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfomer-based models have significantly advanced natural language
processing, in particular the performance in text classification tasks.
Nevertheless, these models face challenges in processing large files, primarily
due to their input constraints, which are generally restricted to hundreds or
thousands of tokens. Attempts to address this issue in existing models usually
consist in extracting only a fraction of the essential information from lengthy
inputs, while often incurring high computational costs due to their complex
architectures. In this work, we address the challenge of classifying large
files from the perspective of correlated multiple instance learning. We
introduce LaFiCMIL, a method specifically designed for large file
classification. LaFiCMIL is optimized for efficient operation on a single GPU,
making it a versatile solution for binary, multi-class, and multi-label
classification tasks. We conducted extensive experiments using seven diverse
and comprehensive benchmark datasets to assess LaFiCMIL's effectiveness. By
integrating BERT for feature extraction, LaFiCMIL demonstrates exceptional
performance, setting new benchmarks across all datasets. A notable achievement
of our approach is its ability to scale BERT to handle nearly 20,000 tokens
while operating on a single GPU with 32GB of memory. This efficiency, coupled
with its state-of-the-art performance, highlights LaFiCMIL's potential as a
groundbreaking approach in the field of large file classification.
- Abstract(参考訳): トランスフォマーモデルでは、自然言語処理、特にテキスト分類タスクの性能が著しく向上している。
しかしながら、これらのモデルは大きなファイルを処理する際の課題に直面しており、主に入力制約が数百から数千のトークンに制限されているためである。
既存のモデルでこの問題に対処しようとする試みは、通常、長い入力から重要な情報のごく一部だけを抽出するが、複雑なアーキテクチャのためにしばしば高い計算コストが発生する。
本稿では,相関型複数インスタンス学習の観点から,大規模ファイルの分類という課題に対処する。
大規模ファイル分類に特化した手法であるlaficmilを提案する。
laficmilは単一のgpu上での効率的な操作に最適化されており、バイナリ、マルチクラス、マルチラベル分類タスクの汎用ソリューションとなっている。
本研究では,LaFiCMILの有効性を評価するために,多種多様で包括的なベンチマークデータセットを用いた広範囲な実験を行った。
機能抽出のためにBERTを統合することで、LaFiCMILは例外的なパフォーマンスを示し、すべてのデータセットに新しいベンチマークを設定する。
このアプローチの注目すべき成果は、32GBのメモリを持つ単一のGPU上で動作しながら、BERTを2万近いトークンを扱うようにスケールできることである。
この効率性と最先端のパフォーマンスは、大規模なファイル分類分野における画期的なアプローチとしてのLaFiCMILの可能性を強調している。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。
CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。
PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T14:48:31Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - DTFD-MIL: Double-Tier Feature Distillation Multiple Instance Learning
for Histopathology Whole Slide Image Classification [18.11776334311096]
マルチプル・インスタンス・ラーニング(MIL)は、スライド画像(WSI)の病理組織学的分類において、ますます使われている。
擬似バッグの概念を導入することにより,バッグの数を事実上拡大することを提案する。
我々はまた、注目に基づくMILの枠組みに基づくインスタンス確率の導出にも貢献し、この導出を利用して提案したフレームワークの構築と分析に役立てる。
論文 参考訳(メタデータ) (2022-03-22T22:33:42Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Dual-stream Multiple Instance Learning Network for Whole Slide Image
Classification with Self-supervised Contrastive Learning [16.84711797934138]
スライド画像全体分類(WSI)の課題に対処する。
WSI分類は、スライドレベルラベルのみが利用可能である場合、多重インスタンス学習(MIL)問題としてキャストすることができる。
局所アノテーションを必要としないWSI分類と腫瘍検出のためのMILベースの手法を提案する。
論文 参考訳(メタデータ) (2020-11-17T20:51:15Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Dual-stream Maximum Self-attention Multi-instance Learning [11.685285490589981]
MIL(Multi-Instance Learning)は、インスタンスレベルのラベルが利用できない間に単一のクラスラベルがインスタンスのバッグに割り当てられる弱い教師付き学習の一種である。
ニューラルネットワークによりパラメータ化されたDSMILモデル(Dual-stream maximum self-attention MIL model)を提案する。
提案手法は,最高のMIL手法と比較して優れた性能を示し,ベンチマークMILデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2020-06-09T22:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。