論文の概要: LaFiCMIL: Rethinking Large File Classification from the Perspective of
Correlated Multiple Instance Learning
- arxiv url: http://arxiv.org/abs/2308.01413v1
- Date: Sun, 30 Jul 2023 18:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:55:05.330654
- Title: LaFiCMIL: Rethinking Large File Classification from the Perspective of
Correlated Multiple Instance Learning
- Title(参考訳): LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考
- Authors: Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawend\'e F.
Bissyand\'e, Jacques Klein
- Abstract要約: トランスフォーマーベースのモデルは、幅広い言語タスクのパフォーマンスに革命をもたらした。
提案手法であるLaFiCMILは、様々な大規模ファイル分類タスクに適用可能な汎用フレームワークとして機能する。
LaFiCMILは、すべてのベンチマークデータセットにまたがって、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 4.607648197852187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have revolutionized the performance of a wide range
of language tasks. Intuitively, one might expect text classification, which
does not necessitate as many high-level representations as generative tasks, to
be comprehensively addressed with the powerful representation capabilities of
Transformers. However, in reality, there remains significant potential for
enhancement, particularly in the areas of multi-class and multi-label
classification of lengthy textual documents and other large files. The
performance of Transformer-based models is mainly hindered by a major
limitation: a restricted input length, e.g., 512 tokens for BERT. While an
increase in GPU memory can marginally extend this limit, practical real-world
applications often operate under constrained GPU resources. In this work, we
tackle the input limit problem from the perspective of correlated multiple
instance learning. The proposed approach, LaFiCMIL, serves as a versatile
framework applicable to various large file classification tasks covering
binary, multi-class, and multi-label classification tasks, spanning various
domains including Natural Language Processing, Programming Language Processing,
and Android Analysis. To evaluate its effectiveness, we employ eight benchmark
datasets pertaining to Long Document Classification, Code Defect Detection, and
Android Malware Detection. Leveraging BERT-family models as feature extractors,
our experimental results demonstrate that LaFiCMIL achieves new
state-of-the-art performance across all benchmark datasets. This is largely
attributable to its capability of scaling BERT up to nearly 20K tokens, running
on a single Tesla V-100 GPU with 32G of memory.
- Abstract(参考訳): トランスフォーマーベースのモデルは、幅広い言語タスクのパフォーマンスに革命をもたらした。
直感的には、生成タスクとして多くのハイレベルな表現を必要としないテキスト分類は、トランスフォーマーの強力な表現能力に包括的に対処されるだろう。
しかし、実際には、特に長いテキスト文書やその他の大きなファイルのマルチクラスおよびマルチラベル分類の領域において、強化の可能性は大きい。
変圧器ベースのモデルの性能は、主に大きな制限によって妨げられている: 制限された入力長、例えば、bertの512トークンなど。
GPUメモリの増加は、この限界をわずかに拡張できるが、現実のアプリケーションは、しばしば制限されたGPUリソースの下で動作する。
本研究では,複数インスタンス間の相関学習の観点から,入力限界問題に取り組む。
提案手法であるLaFiCMILは、自然言語処理、プログラミング言語処理、Android分析など、さまざまな領域にまたがる、バイナリ、マルチクラス、マルチラベルの分類タスクをカバーする様々な大規模なファイル分類タスクに適用可能なフレームワークである。
有効性を評価するために,Long Document Classification, Code Defect Detection, Android Malware Detectionの8つのベンチマークデータセットを用いた。
bertファミリーモデルを特徴抽出器として活用し,laficmilがすべてのベンチマークデータセットで新たな最先端性能を実現することを実証した。
これはBERTを最大20Kトークンまでスケールアップし、32Gのメモリを持つ単一のTesla V-100 GPUで動作する能力に起因する。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。
CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。
PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T14:48:31Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - DTFD-MIL: Double-Tier Feature Distillation Multiple Instance Learning
for Histopathology Whole Slide Image Classification [18.11776334311096]
マルチプル・インスタンス・ラーニング(MIL)は、スライド画像(WSI)の病理組織学的分類において、ますます使われている。
擬似バッグの概念を導入することにより,バッグの数を事実上拡大することを提案する。
我々はまた、注目に基づくMILの枠組みに基づくインスタンス確率の導出にも貢献し、この導出を利用して提案したフレームワークの構築と分析に役立てる。
論文 参考訳(メタデータ) (2022-03-22T22:33:42Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Dual-stream Multiple Instance Learning Network for Whole Slide Image
Classification with Self-supervised Contrastive Learning [16.84711797934138]
スライド画像全体分類(WSI)の課題に対処する。
WSI分類は、スライドレベルラベルのみが利用可能である場合、多重インスタンス学習(MIL)問題としてキャストすることができる。
局所アノテーションを必要としないWSI分類と腫瘍検出のためのMILベースの手法を提案する。
論文 参考訳(メタデータ) (2020-11-17T20:51:15Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Dual-stream Maximum Self-attention Multi-instance Learning [11.685285490589981]
MIL(Multi-Instance Learning)は、インスタンスレベルのラベルが利用できない間に単一のクラスラベルがインスタンスのバッグに割り当てられる弱い教師付き学習の一種である。
ニューラルネットワークによりパラメータ化されたDSMILモデル(Dual-stream maximum self-attention MIL model)を提案する。
提案手法は,最高のMIL手法と比較して優れた性能を示し,ベンチマークMILデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2020-06-09T22:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。