論文の概要: Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos
- arxiv url: http://arxiv.org/abs/2509.20961v1
- Date: Thu, 25 Sep 2025 09:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.828434
- Title: Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos
- Title(参考訳): Unlocking Financial Insights:ファイナンシャル・アドバイザリ・ビデオのためのマルチモーダル・アウトプット・フレームワークによる高度なマルチモーダル・サマリゼーション
- Authors: Sarmistha Das, R E Zera Marveen Lyngkhoi, Sriparna Saha, Alka Maurya,
- Abstract要約: FASTER(Financial Advisory Summariser with Textual Embedded Relevant Image)は、最適化された簡潔な要約を生成するフレームワークである。
FASTERは、セマンティックな視覚的記述にBLIP、テキストパターンにOCR、話者ダイアリゼーションをBOS機能としてWhisperベースの書き起こしにBLIPを使用している。
A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensure precision, Relevance, and factual consistency。
- 参考スコア(独自算出の注目度): 11.550322270589952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dynamic propagation of social media has broadened the reach of financial advisory content through podcast videos, yet extracting insights from lengthy, multimodal segments (30-40 minutes) remains challenging. We introduce FASTER (Financial Advisory Summariser with Textual Embedded Relevant images), a modular framework that tackles three key challenges: (1) extracting modality-specific features, (2) producing optimized, concise summaries, and (3) aligning visual keyframes with associated textual points. FASTER employs BLIP for semantic visual descriptions, OCR for textual patterns, and Whisper-based transcription with Speaker diarization as BOS features. A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensures precision, relevance, and factual consistency against the human-aligned summary. A ranker-based retrieval mechanism further aligns keyframes with summarized content, enhancing interpretability and cross-modal coherence. To acknowledge data resource scarcity, we introduce Fin-APT, a dataset comprising 470 publicly accessible financial advisory pep-talk videos for robust multimodal research. Comprehensive cross-domain experiments confirm FASTER's strong performance, robustness, and generalizability when compared to Large Language Models (LLMs) and Vision-Language Models (VLMs). By establishing a new standard for multimodal summarization, FASTER makes financial advisory content more accessible and actionable, thereby opening new avenues for research. The dataset and code are available at: https://github.com/sarmistha-D/FASTER
- Abstract(参考訳): ソーシャルメディアのダイナミックな伝播は、ポッドキャストビデオを通じて金融アドバイザリーコンテンツの範囲を広げてきたが、長いマルチモーダルセグメント(30~40分)からの洞察を抽出することは依然として困難である。
FASTER(Financial Advisory Summariser with Textual Embedded Relevant Image)は,(1)モダリティ固有の特徴の抽出,(2)最適化,簡潔な要約,(3)視覚的キーフレームと関連するテキストポイントの整合,という3つの課題に対処するモジュラーフレームワークである。
FASTERは、セマンティックな視覚的記述にBLIP、テキストパターンにOCR、話者ダイアリゼーションをBOS機能としてWhisperベースの書き起こしにBLIPを使用している。
A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensure the precision, Relevance and factual consistency against the human-aligned summary。
ランク付けに基づく検索機構は、キーフレームを要約された内容と整合させ、解釈可能性とクロスモーダルコヒーレンスを高める。
データ資源の不足を認めるため、我々はFin-APTという、470の公開金融アドバイザリー・ペプトーク・ビデオからなるデータセットを導入し、堅牢なマルチモーダル・リサーチを行った。
総合的なクロスドメイン実験により、大言語モデル(LLM)や視覚言語モデル(VLM)と比較して、FASTERの強い性能、堅牢性、一般化性が確認されている。
FASTERは、マルチモーダル要約の新しい標準を確立することにより、金融アドバイザリーコンテンツをよりアクセシブルかつ実用的なものにし、研究のための新たな道を開く。
データセットとコードは、https://github.com/sarmistha-D/FASTER.comで入手できる。
関連論文リスト
- MultiFinRAG: An Optimized Multimodal Retrieval-Augmented Generation (RAG) Framework for Financial Question Answering [0.0]
MultiFinRAGは、財務文書のための検索強化された生成フレームワークである。
テーブルとフィギュアをグループ化してマルチモーダル抽出を行い、構造化された要約と簡潔な要約を生成する。
テキスト、テーブル、画像、複合マルチモーダル推論を含む複雑な財務タスクにおいて、ChatGPT-4oよりも19パーセント高い精度を達成する。
論文 参考訳(メタデータ) (2025-06-25T20:37:20Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。