論文の概要: Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
- arxiv url: http://arxiv.org/abs/2511.13189v1
- Date: Mon, 17 Nov 2025 09:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.108339
- Title: Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework
- Title(参考訳): 極端に多ラベル分類が可能な大規模言語モデル:スケーリングとマルチモーダルフレームワーク
- Authors: Diego Ortego, Marlon Rodríguez, Mario Almagro, Kunal Dahiya, David Jiménez, Juan C. SanMiguel,
- Abstract要約: ファンデーションモデルは、多くの領域にわたって人工知能に革命をもたらしたが、その変革の可能性は、エクストリーム・マルチラベル分類(XMC)にほとんど使われていない。
本稿では,より大規模なデコーダのみのモデルを効果的に活用する方法と,計算効率を保ちながら視覚情報を活用する方法について述べる。
既存のテキストのみのデータセットを拡張して、ビジュアルメタデータを活用し、将来のベンチマークに利用できるようにする。
- 参考スコア(独自算出の注目度): 7.629925808881079
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have revolutionized artificial intelligence across numerous domains, yet their transformative potential remains largely untapped in Extreme Multi-label Classification (XMC). Queries in XMC are associated with relevant labels from extremely large label spaces, where it is critical to strike a balance between efficiency and performance. Therefore, many recent approaches efficiently pose XMC as a maximum inner product search between embeddings learned from small encoder-only transformer architectures. In this paper, we address two important aspects in XMC: how to effectively harness larger decoder-only models, and how to exploit visual information while maintaining computational efficiency. We demonstrate that both play a critical role in XMC separately and can be combined for improved performance. We show that a few billion-size decoder can deliver substantial improvements while keeping computational overhead manageable. Furthermore, our Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiently integrates foundation vision models by pooling a single embedding per image. This limits computational growth while unlocking multi-modal capabilities. Remarkably, ViXML with small encoders outperforms text-only decoder in most cases, showing that an image is worth billions of parameters. Finally, we present an extension of existing text-only datasets to exploit visual metadata and make them available for future benchmarking. Comprehensive experiments across four public text-only datasets and their corresponding image enhanced versions validate our proposals' effectiveness, surpassing previous state-of-the-art by up to +8.21\% in P@1 on the largest dataset. ViXML's code is available at https://github.com/DiegoOrtego/vixml.
- Abstract(参考訳): ファンデーションモデルは、多くのドメインにわたって人工知能に革命をもたらしたが、その変革の可能性は、Extreme Multi-label Classification (XMC)にほとんど使われていない。
XMCのクエリは、非常に大きなラベル空間の関連ラベルと関連付けられており、効率と性能のバランスをとることが重要である。
したがって、近年の多くのアプローチは、小さなエンコーダのみのトランスフォーマーアーキテクチャから学んだ埋め込み間の最大内部積探索としてXMCを効果的に採用している。
本稿では、XMCにおける2つの重要な側面として、より大規模なデコーダのみのモデルを効果的に活用する方法と、計算効率を維持しながら視覚情報を活用する方法について述べる。
我々は,XMCにおいて両者が個別に重要な役割を担い,性能向上のために組み合わせることができることを示した。
数十億のデコーダは、計算オーバーヘッドを管理しつつ、大幅な改善を実現することができることを示す。
さらに、Vision-enhanced eXtreme Multi-label Learning framework (ViXML)は、画像毎にひとつの埋め込みをプールすることで、基礎的なビジョンモデルを効率的に統合します。
これにより、マルチモーダル機能をアンロックしながら、計算量の増加が制限される。
注目すべきなのは、小さなエンコーダを持つViXMLはテキストのみのデコーダよりも優れており、画像が数十億のパラメータを持つことを示していることだ。
最後に、視覚メタデータを活用するために既存のテキストのみのデータセットを拡張し、将来のベンチマークに利用できるようにする。
4つの公開テキストのみのデータセットとそれに対応する画像拡張バージョンにわたる総合的な実験は、我々の提案の有効性を検証する。
ViXMLのコードはhttps://github.com/DiegoOrtego/vixml.comで入手できる。
関連論文リスト
- Xray-Visual Models: Scaling Vision models on Industry Scale Data [40.21391133092764]
Xray-Visualは、産業用ソーシャルメディアデータに基づいて訓練された大規模画像および映像理解のための統合視覚モデルアーキテクチャである。
私たちのモデルは、FacebookとInstagramから150億以上のキュレートされた画像テキストペアと100億のビデオハッシュタグペアを活用しています。
Xray-Visualは、より優れた精度と計算効率を維持しながら、スケーラブルでマルチモーダルな視覚モデルのための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2026-02-18T22:22:44Z) - PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization [82.96200364977737]
PlotCraftは、1kの挑戦的な視覚化タスクを特徴とする新しいベンチマークだ。
PlotCraftは7つのハイレベルな視覚化タスクを中心に構成されており、48の異なるチャートタイプを含んでいる。
単一ターン生成と多ターン改善の両方を多種多様なタスク複雑度にわたって体系的に評価するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-10-15T10:14:39Z) - UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets [51.284864284520744]
統合視覚大言語モデル(VLLM)は、最近、マルチモーダル理解と生成の両方において顕著な進歩を遂げている。
本稿では,新しいデータセット構築フレームワークUnifiedVisualを導入し,UnifiedVisual-240Kを提案する。
UnifiedVisual-240Kは、様々な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的なクロスモーダル推論を可能にする。
論文 参考訳(メタデータ) (2025-09-18T08:39:44Z) - X-Fusion: Introducing New Modality to Frozen Large Language Models [82.3508830643655]
マルチモーダルタスクのための事前訓練された大規模言語モデルを拡張するフレームワークであるX-Fusionを提案する。
X-フュージョンは、モダリティ固有の重みを持つデュアルトウワー設計を採用し、LLMのパラメータを凍結させながら、理解と生成の両方に視覚特有の情報を統合する。
実験の結果,X-Fusionは画像・テキスト・テキスト・画像の両タスクにおいて,代替アーキテクチャを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-29T17:59:45Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Leveraging Human-Machine Interactions for Computer Vision Dataset
Quality Enhancement [0.0]
emphImageNet-1kのようなシングルラベルのマルチクラス分類のための大規模データセットは、ディープラーニングやコンピュータビジョンの進歩に役立っている。
我々は、効率的なデータセット検証と品質向上のために、人間とマシンインテリジェンスをシナジする軽量でユーザフレンドリでスケーラブルなフレームワークを導入します。
ImageNetV2データセットでMultilabelfyを使用することで、画像の約47.88%が少なくとも2つのラベルを含んでいることがわかった。
論文 参考訳(メタデータ) (2024-01-31T10:57:07Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - MaxViT: Multi-Axis Vision Transformer [19.192826213493838]
多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。