論文の概要: Leveraging Taxonomy and LLMs for Improved Multimodal Hierarchical Classification
- arxiv url: http://arxiv.org/abs/2501.06827v1
- Date: Sun, 12 Jan 2025 14:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:33.101126
- Title: Leveraging Taxonomy and LLMs for Improved Multimodal Hierarchical Classification
- Title(参考訳): マルチモーダル階層分類の改善のための分類学とLCMの活用
- Authors: Shijing Chen, Mohamed Reda Bouadjenek, Shoaib Jameel, Usman Naseem, Basem Suleiman, Flora D. Salim, Hakim Hacid, Imran Razzak,
- Abstract要約: マルチモーダル分類のための分類組込み遷移LLM非依存フレームワークを提案する。
MEP-3Mデータセットを用いた評価では,従来のLCM構造と比較して,大幅な性能向上が見られた。
- 参考スコア(独自算出の注目度): 19.80724112056431
- License:
- Abstract: Multi-level Hierarchical Classification (MLHC) tackles the challenge of categorizing items within a complex, multi-layered class structure. However, traditional MLHC classifiers often rely on a backbone model with independent output layers, which tend to ignore the hierarchical relationships between classes. This oversight can lead to inconsistent predictions that violate the underlying taxonomy. Leveraging Large Language Models (LLMs), we propose a novel taxonomy-embedded transitional LLM-agnostic framework for multimodality classification. The cornerstone of this advancement is the ability of models to enforce consistency across hierarchical levels. Our evaluations on the MEP-3M dataset - a multi-modal e-commerce product dataset with various hierarchical levels - demonstrated a significant performance improvement compared to conventional LLM structures.
- Abstract(参考訳): 多階層階層分類(MLHC)は、複雑な多層クラス構造内の項目を分類する課題に取り組む。
しかし、従来のMLHC分類器は独立した出力層を持つバックボーンモデルに依存しており、クラス間の階層的関係を無視する傾向がある。
この監視は、根底にある分類に反する矛盾した予測につながる可能性がある。
本稿では,Large Language Models (LLMs) を応用し,マルチモーダル分類のための新しい分類組込み遷移 LLM-Agnostic framework を提案する。
この進歩の基盤はモデルが階層的なレベルで一貫性を強制する能力である。
階層レベルの異なるマルチモーダルeコマース製品であるMEP-3Mデータセットに対する評価は,従来のLCM構造と比較すると,大幅な性能向上を示した。
関連論文リスト
- Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Can Large Language Models Serve as Effective Classifiers for Hierarchical Multi-Label Classification of Scientific Documents at Industrial Scale? [1.0562108865927007]
大規模言語モデル(LLM)は、多ラベル分類のような複雑なタスクにおいて大きな可能性を証明している。
これらの課題を克服するために,LLMの強みと高密度検索手法を組み合わせる手法を提案する。
複数の分野にまたがる大規模プリプリントリポジトリであるSSRNにおいて,本手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-12-06T15:51:22Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Multi-Objective Reinforcement Learning Based on Decomposition: A
Taxonomy and Framework [0.3069335774032178]
多目的強化学習(MORL)は、対立する目的の間で異なる妥協を行う政策を求めることにより、従来のRLを拡張している。
RLとMOO/Dの両方に基づく明確な分類は、既存の文献に欠けている。
MORL/Dの包括的分類法が提示され、既存のMORL作品と潜在的なMORL作品の分類のための構造的基盤を提供する。
導入された分類法は、MORLの研究を精査し、明確に分類することで明確さと簡潔さを高めるために用いられる。
論文 参考訳(メタデータ) (2023-11-21T10:11:19Z) - Learning Hierarchical Features with Joint Latent Space Energy-Based
Prior [44.4434704520236]
階層表現学習における多層ジェネレータモデルの基本的問題について検討する。
実効的階層型表現学習のための多層潜在変数を用いた有意な潜在空間EMM事前モデルを提案する。
論文 参考訳(メタデータ) (2023-10-14T15:44:14Z) - Generating Hierarchical Structures for Improved Time Series
Classification Using Stochastic Splitting Functions [0.0]
本研究では,階層分類(HC)による多クラスデータセットの分類性能を高めるために,分割関数(SSF)を用いた新しい階層分割クラスタリング手法を提案する。
この方法は、明示的な情報を必要とせずに階層を生成するユニークな能力を持ち、階層の事前の知識を欠いたデータセットに適している。
論文 参考訳(メタデータ) (2023-09-21T10:34:50Z) - HFT-ONLSTM: Hierarchical and Fine-Tuning Multi-label Text Classification [7.176984223240199]
階層型マルチラベルテキスト分類(HMTC)は,近縁なカテゴリの大規模集合よりも高精度である。
本稿では,HFT-ONLSTMと略される順序付きニューラルLSTMニューラルネットワークをベースとした階層的・微調整手法を提案し,より正確なレベル・バイ・レベルHMTCを提案する。
論文 参考訳(メタデータ) (2022-04-18T00:57:46Z) - Coherent Hierarchical Multi-Label Classification Networks [56.41950277906307]
C-HMCNN(h)はHMC問題に対する新しいアプローチであり、階層情報を利用して制約に整合した予測を生成し、性能を向上させる。
最先端モデルと比較してC-HMCNN(h)の優れた性能を示す広範囲な実験的検討を行った。
論文 参考訳(メタデータ) (2020-10-20T09:37:02Z) - A Multilayer Framework for Online Metric Learning [71.31889711244739]
本稿では,インスタンス間の非線形類似性を捉えるために,オンラインメトリック学習のための多層フレームワークを提案する。
マハラノビスをベースとした新しいオンラインメトリックラーニング(MOML)アルゴリズムは、受動攻撃戦略とワンパス三重項構築戦略に基づいて提案される。
提案したMLOMLは、いくつかの優れた特性を享受し、実際にメトリクスを漸進的に学習し、ベンチマークデータセットでより良いパフォーマンスを発揮する。
論文 参考訳(メタデータ) (2018-05-15T01:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。