論文の概要: FinCap: Topic-Aligned Captions for Short-Form Financial YouTube Videos
- arxiv url: http://arxiv.org/abs/2509.25745v1
- Date: Tue, 30 Sep 2025 04:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.41957
- Title: FinCap: Topic-Aligned Captions for Short-Form Financial YouTube Videos
- Title(参考訳): FinCap:ショート・フォー・ファイナンシャル・YouTubeビデオのトピック・アラインド・キャプション
- Authors: Siddhant Sukhani, Yash Bhardwaj, Riya Bhadani, Veer Kejriwal, Michael Galarnyk, Sudheer Chava,
- Abstract要約: 金融ショートフォームビデオ(SV)における話題対応キャプションのためのマルチモーダル大言語モデル(MLLM)の評価を行った。
624の注釈付きYouTube SVを用いて、主推奨、感情分析、ビデオ目的、視覚分析、金融エンティティ認識の5つのトピックにまたがる7つのモダリティの組み合わせを評価した。
- 参考スコア(独自算出の注目度): 4.0286787317538115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We evaluate multimodal large language models (MLLMs) for topic-aligned captioning in financial short-form videos (SVs) by testing joint reasoning over transcripts (T), audio (A), and video (V). Using 624 annotated YouTube SVs, we assess all seven modality combinations (T, A, V, TA, TV, AV, TAV) across five topics: main recommendation, sentiment analysis, video purpose, visual analysis, and financial entity recognition. Video alone performs strongly on four of five topics, underscoring its value for capturing visual context and effective cues such as emotions, gestures, and body language. Selective pairs such as TV or AV often surpass TAV, implying that too many modalities may introduce noise. These results establish the first baselines for financial short-form video captioning and illustrate the potential and challenges of grounding complex visual cues in this domain. All code and data can be found on our Github under the CC-BY-NC-SA 4.0 license.
- Abstract(参考訳): 音声 (T), 音声 (A), ビデオ (V) を用いた共同推論テストにより, 金融ショートフォームビデオ (SV) におけるトピックアラインキャプションのための多モーダル大言語モデル (MLLM) の評価を行った。
624の注釈付きYouTube SVを用いて、主推奨、感情分析、ビデオ目的、ビジュアル分析、金融エンティティ認識の5つのトピックにわたる7つのモダリティの組み合わせ(T, A, V, TA, TV, AV, TAV)を評価した。
ビデオだけでは5つのトピックのうち4つで強く機能し、視覚的コンテキストと感情、ジェスチャー、ボディランゲージといった効果的な手がかりを捉えた価値を強調している。
テレビやAVのような選択的なペアはTAVを超えることが多く、過度に多くのモダリティがノイズをもたらす可能性がある。
これらの結果は、金融ショートフォームビデオキャプションのための最初のベースラインを確立し、この領域における複雑な視覚的手がかりの基盤となる可能性と課題を明らかにしている。
すべてのコードとデータは、CC-BY-NC-SA 4.0ライセンスの下でGithubで確認できます。
関連論文リスト
- eMotions: A Large-Scale Dataset and Audio-Visual Fusion Network for Emotion Analysis in Short-form Videos [15.533003031406551]
ショートフォームビデオ(SV)は、情報を取得し共有するためのオンラインルーチンの重要な部分になっています。
SVの感情データの可用性が制限されていることから,本研究では,27,996本のビデオからなる大規模データセットであるeMotionsを紹介する。
AV-CANetは,ビデオトランスフォーマを利用して意味的に関連する表現をキャプチャする,エンドツーエンドの音声-視覚融合ネットワークである。
論文 参考訳(メタデータ) (2025-08-09T09:27:45Z) - Learning Video Context as Interleaved Multimodal Sequences [40.15446453928028]
MovieSeqは、ビデオコンテキストを理解するための幅広い課題に対処するために開発されたマルチモーダル言語モデルである。
私たちの中核的な考え方は、動画をインターリーブされたマルチモーダルシーケンスとして表現することであり、外部知識データベースをリンクするか、オフラインモデルを使用するかのどちらかです。
有効性を示すため,MovieSeqの性能を6つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-31T17:23:57Z) - VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.313541287648473]
VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。