論文の概要: Adaptive Data-Resilient Multi-Modal Hierarchical Multi-Label Book Genre Identification
- arxiv url: http://arxiv.org/abs/2505.03839v2
- Date: Sat, 18 Oct 2025 17:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:05.61764
- Title: Adaptive Data-Resilient Multi-Modal Hierarchical Multi-Label Book Genre Identification
- Title(参考訳): 適応型データレジリエント多階層階層型マルチラベルブックジェネレータ同定
- Authors: Utsav Kumar Nareti, Soumi Chattopadhyay, Prolay Mallick, Suraj Kumar, Chandranath Adak, Ayush Vikas Daga, Adarsh Wase, Arjab Roy,
- Abstract要約: IMAGINEはマルチモーダルデータを活用するために設計されたフレームワークである。
IMAGINEの主な強みは適応性であり、テキストや画像のような1つのモダリティが利用できない場合でも高い予測性能を維持する。
- 参考スコア(独自算出の注目度): 0.08668033986036229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying fine-grained book genres is essential for enhancing user experience through efficient discovery, personalized recommendations, and improved reader engagement. At the same time, it provides publishers and marketers with valuable insights into consumer preferences and emerging market trends. While traditional genre classification methods predominantly rely on textual reviews or content analysis, the integration of additional modalities, such as book covers, blurbs, and metadata, offers richer contextual cues. However, the effectiveness of such multi-modal systems is often hindered by incomplete, noisy, or missing data across modalities. To address this, we propose IMAGINE (Intelligent Multi-modal Adaptive Genre Identification NEtwork), a framework designed to leverage multi-modal data while remaining robust to missing or unreliable information. IMAGINE learns modality-specific feature representations and adaptively prioritizes the most informative sources available at inference time. It further employs a hierarchical classification strategy, grounded in a curated taxonomy of book genres, to capture inter-genre relationships and support multi-label assignments reflective of real-world literary diversity. A key strength of IMAGINE is its adaptability: it maintains high predictive performance even when one modality, such as text or image, is unavailable. We also curated a large-scale hierarchical dataset that structures book genres into multiple levels of granularity, allowing for a more comprehensive evaluation. Experimental results demonstrate that IMAGINE outperformed strong baselines in various settings, with significant gains in scenarios involving incomplete modality-specific data.
- Abstract(参考訳): 詳細な書籍ジャンルを特定することは、効率的な発見、パーソナライズされたレコメンデーション、読者エンゲージメントの改善を通じて、ユーザエクスペリエンスを向上させるために不可欠である。
同時に、パブリッシャーやマーケッターに消費者の好みや新興市場の動向に関する貴重な洞察を提供する。
伝統的なジャンル分類法は、主にテキストレビューやコンテンツ分析に頼っているが、書籍の表紙、ぼやけ、メタデータといった追加のモダリティの統合は、よりリッチな文脈的手がかりを提供する。
しかし、このようなマルチモーダルシステムの有効性は、不完全、ノイズ、あるいはモダリティを越えた欠落したデータによってしばしば妨げられる。
IMAGINE(Intelligent Multi-modal Adaptive Genre Identification NEtwork)は,マルチモーダルデータの活用を目的としたフレームワークである。
IMAGINEは、モーダリティ固有の特徴表現を学び、推論時に利用可能な最も情報性の高いソースを適応的に優先順位付けする。
さらに、本ジャンルのキュレートされた分類に根ざした階層的な分類戦略を採用し、大陸間の関係を捉え、現実世界の文学の多様性を反映した多ラベルの課題を支援する。
IMAGINEの主な強みは適応性であり、テキストや画像のような1つのモダリティが利用できない場合でも高い予測性能を維持する。
また、書籍ジャンルを多段階の粒度に構造化し、より包括的な評価を可能にする大規模な階層的データセットをキュレートした。
実験の結果、IMAGINEは様々な設定において強いベースラインを上回り、不完全なモダリティデータを含むシナリオでは顕著に向上した。
関連論文リスト
- Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文 参考訳(メタデータ) (2024-01-15T00:06:24Z) - Panel Transitions for Genre Analysis in Visual Narratives [1.320904960556043]
本稿では,漫画や漫画風のビジュアル・ナラティブに基づくジャンルのマルチモーダル分析を行うための新しいアプローチを提案する。
我々は、主観的ラベルをモデル化する際の既存の計算手法の限界と課題を強調した。
論文 参考訳(メタデータ) (2023-12-14T08:05:09Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Efficient Classification of Long Documents Using Transformers [13.927622630633344]
様々なベースラインと多様なデータセットに対して測定された相対的有効性を評価する。
結果として、より複雑なモデルは、単純なベースラインを上回り、データセット間で一貫性のないパフォーマンスを得ることができないことがしばしば示される。
論文 参考訳(メタデータ) (2022-03-21T18:36:18Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。