論文の概要: CEMTM: Contextual Embedding-based Multimodal Topic Modeling
- arxiv url: http://arxiv.org/abs/2509.11465v1
- Date: Sun, 14 Sep 2025 23:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.096638
- Title: CEMTM: Contextual Embedding-based Multimodal Topic Modeling
- Title(参考訳): CEMTM:コンテキスト埋め込みに基づくマルチモーダルトピックモデリング
- Authors: Amirhossein Abaskohi, Raymond Li, Chuyuan Li, Shafiq Joty, Giuseppe Carenini,
- Abstract要約: 我々は,コンテキスト強化型マルチモーダルトピックモデルであるCEMTMを紹介する。
テキストと画像を含む短い文書と長い文書の両方から、一貫性と解釈可能なトピック構造を推論する。
- 参考スコア(独自算出の注目度): 46.758152824561144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CEMTM, a context-enhanced multimodal topic model designed to infer coherent and interpretable topic structures from both short and long documents containing text and images. CEMTM builds on fine-tuned large vision language models (LVLMs) to obtain contextualized embeddings, and employs a distributional attention mechanism to weight token-level contributions to topic inference. A reconstruction objective aligns topic-based representations with the document embedding, encouraging semantic consistency across modalities. Unlike existing approaches, CEMTM can process multiple images per document without repeated encoding and maintains interpretability through explicit word-topic and document-topic distributions. Extensive experiments on six multimodal benchmarks show that CEMTM consistently outperforms unimodal and multimodal baselines, achieving a remarkable average LLM score of 2.61. Further analysis shows its effectiveness in downstream few-shot retrieval and its ability to capture visually grounded semantics in complex domains such as scientific articles.
- Abstract(参考訳): CEMTMは,テキストと画像を含む短文と長文の両方から,コヒーレントかつ解釈可能なトピック構造を推論するために設計された,コンテキスト強化型マルチモーダルトピックモデルである。
CEMTMは、微調整された大型視覚言語モデル(LVLM)に基づいて、コンテキスト化された埋め込みを得るとともに、トークンレベルのトピック推論への貢献を重み付けするために、分散アテンション機構を用いる。
再構築の目的は、トピックベースの表現を文書の埋め込みと整合させ、モダリティ間のセマンティックな一貫性を奨励する。
既存のアプローチとは異なり、CEMTMは繰り返しエンコードすることなく文書ごとに複数の画像を処理でき、明示的な単語トピックと文書トピックの分布を通して解釈可能性を維持する。
6つのマルチモーダルベンチマークの大規模な実験により、CEMTMは単調なベースラインとマルチモーダルのベースラインを一貫して上回り、2.61の驚くべき平均LDMスコアを達成している。
さらなる分析は、下流のいくつかのショット検索におけるその効果と、科学論文のような複雑な領域における視覚的に接地されたセマンティクスをキャプチャする能力を示している。
関連論文リスト
- Topic-Guided Reinforcement Learning with LLMs for Enhancing Multi-Document Summarization [49.61589046694085]
マルチドキュメント要約におけるコンテンツ選択を改善するためのトピック誘導型強化学習手法を提案する。
まず、トピックラベル付きモデルに明示的にプロンプトすることで、生成した要約の情報性が向上することを示す。
論文 参考訳(メタデータ) (2025-09-11T21:01:54Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。