論文の概要: Cross-Modal State-Space Graph Reasoning for Structured Summarization
- arxiv url: http://arxiv.org/abs/2503.20988v1
- Date: Wed, 26 Mar 2025 21:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:54.491138
- Title: Cross-Modal State-Space Graph Reasoning for Structured Summarization
- Title(参考訳): 構造化要約のためのクロスモーダルな状態空間グラフ推論
- Authors: Hannah Kim, Sofia Martinez, Jason Lee,
- Abstract要約: クロスモーダル要約は、ビデオ分析から医療報告まで、多くのアプリケーションにとって重要である。
グラフベースのメッセージパッシングを備えた状態空間モデルを組み込んだtextitCross-Modal State-Space Graph Reasoning (textbfCSS-GR) フレームワークを提案する。
提案手法は,標準的なマルチモーダル要約ベンチマークにおいて,計算効率を維持しながら,要約品質と解釈性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 1.7766350477173578
- License:
- Abstract: The ability to extract compact, meaningful summaries from large-scale and multimodal data is critical for numerous applications, ranging from video analytics to medical reports. Prior methods in cross-modal summarization have often suffered from high computational overheads and limited interpretability. In this paper, we propose a \textit{Cross-Modal State-Space Graph Reasoning} (\textbf{CSS-GR}) framework that incorporates a state-space model with graph-based message passing, inspired by prior work on efficient state-space models. Unlike existing approaches relying on purely sequential models, our method constructs a graph that captures inter- and intra-modal relationships, allowing more holistic reasoning over both textual and visual streams. We demonstrate that our approach significantly improves summarization quality and interpretability while maintaining computational efficiency, as validated on standard multimodal summarization benchmarks. We also provide a thorough ablation study to highlight the contributions of each component.
- Abstract(参考訳): 大規模およびマルチモーダルデータからコンパクトで有意義な要約を抽出する能力は、ビデオ分析から医療報告まで、数多くのアプリケーションにとって重要である。
クロスモーダル要約の以前の手法は、しばしば高い計算オーバーヘッドと限定的な解釈可能性に悩まされてきた。
本稿では,グラフベースのメッセージパッシングを備えた状態空間モデルを組み込んだ 'textit{Cross-Modal State-Space Graph Reasoning} (\textbf{CSS-GR}) フレームワークを提案する。
従来の手法とは違い,本手法はモーダル間関係とモーダル間関係を捉えるグラフを構築し,テキストストリームとビジュアルストリームの両方に対してより包括的推論を可能にする。
従来のマルチモーダル要約ベンチマークでは,計算効率を保ちながら,要約品質と解釈性を大幅に向上することが実証された。
また、各コンポーネントのコントリビューションを明確にするために、徹底的なアブレーション研究も行います。
関連論文リスト
- Adaptive Message Passing: A General Framework to Mitigate Oversmoothing, Oversquashing, and Underreaching [23.487431014596556]
長距離相互作用は、多くの科学分野における複雑なシステムの正しい記述に不可欠である。
ほとんどのディープグラフネットワークは、(同期)メッセージパッシングの固有の制限のため、実際には長距離依存をモデル化できません。
この研究は、これらの制限を緩和する一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-27T12:49:27Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。