論文の概要: Towards Visually Grounded Multimodal Summarization via Cross-Modal Transformer and Gated Attention
- arxiv url: http://arxiv.org/abs/2605.11753v1
- Date: Tue, 12 May 2026 08:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.71235
- Title: Towards Visually Grounded Multimodal Summarization via Cross-Modal Transformer and Gated Attention
- Title(参考訳): クロスモーダル変圧器とゲートアテンションによる視覚的マルチモーダル要約に向けて
- Authors: Abid Ali, Diego Molla-Aliod, Usman Naseem,
- Abstract要約: テキスト要約と代表画像選択を共同で行う統合フレームワークを提案する。
SPeCTrA-Sumは自己回帰的要約、クロスモーダルアライメント、DPPに基づく蒸留を組み合わせた多目的損失を用いて訓練される。
実験により,本システムはより正確で視覚的な要約を生成し,より代表的な画像を選択する。
- 参考スコア(独自算出の注目度): 12.669087812857533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal summarization requires models to jointly understand textual and visual inputs to generate concise, semantically coherent summaries. Existing methods often inject shallow visual features into deep language models, leading to representational mismatches and weak cross-modal grounding. We propose a unified framework that jointly performs text summarization and representative image selection. Our system, SPeCTrA-Sum (Sampler Perceiver with Cross-modal Transformer and gated Attention for Summarization), introduces two key innovations. First, a Deep Visual Processor (DVP) aligns the visual encoder with the language model at corresponding depths, enabling hierarchical, layer-wise fusion that preserves semantic consistency. Second, a lightweight Visual Relevance Predictor (VRP) selects salient and diverse images by distilling soft labels from a Determinantal Point Processes (DPP) teacher. SPeCTrA-Sum is trained using a multi-objective loss that combines autoregressive summarization, cross-modal alignment, and DPP-based distillation. Experiments show that our system produces more accurate, visually grounded summaries and selects more representative images, demonstrating the benefits of depth-aware fusion and principled image selection for multimodal summarization.
- Abstract(参考訳): マルチモーダル要約は、簡潔でセマンティックな要約を生成するために、テキスト入力と視覚入力を共同で理解する必要がある。
既存の手法は、しばしば浅い視覚的特徴を深層言語モデルに注入し、表現ミスマッチと弱いクロスモーダルグラウンドに繋がる。
テキスト要約と代表画像選択を共同で行う統合フレームワークを提案する。
我々のシステムであるSPeCTrA-Sum (Sampler Perceiver with Cross-modal Transformer and gated Attention for Summarization)は、2つの重要な革新をもたらす。
第一に、ディープビジュアルプロセッサ(DVP)は、視覚エンコーダを対応する深さで言語モデルと整列させ、セマンティックな一貫性を保つ階層的なレイヤワイド融合を可能にする。
第二に、軽量な視覚関連予測器(VRP)は、DPP(Determinantal Point Processes)の教師からソフトラベルを蒸留することにより、健全で多様な画像を選択する。
SPeCTrA-Sumは自己回帰的要約、クロスモーダルアライメント、DPPに基づく蒸留を組み合わせた多目的損失を用いて訓練される。
実験により,本システムはより正確で視覚的な要約を生成し,より代表的な画像を選択し,奥行き認識融合の利点とマルチモーダル要約の原理的画像選択を実証した。
関連論文リスト
- MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - DualTSR: Unified Dual-Diffusion Transformer for Scene Text Image Super-Resolution [52.962204748003394]
Scene Text Image Super-Resolutionは、低解像度のテキスト画像における高解像度の詳細を復元することを目的としている。
しかし、既存の手法は、しばしば外部光学文字認識(OCR)モデルに依存している。
両問題に対処する統合エンドツーエンドフレームワークであるDualTSRを紹介する。
論文 参考訳(メタデータ) (2026-03-15T03:50:47Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization [23.475411831792716]
We propose ViL-Sum to jointly model of paragraph-level textbfVision-textbfLanguage Semantic Alignment and Multi-Modal textbfSummarization。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
実験結果から,提案したViL-Sumは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-24T05:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。