論文の概要: Multimodal Proposal for an AI-Based Tool to Increase Cross-Assessment of Messages
- arxiv url: http://arxiv.org/abs/2509.03529v1
- Date: Mon, 25 Aug 2025 11:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.295491
- Title: Multimodal Proposal for an AI-Based Tool to Increase Cross-Assessment of Messages
- Title(参考訳): メッセージのクロスアセスメントを高めるAIベースのツールのマルチモーダル提案
- Authors: Alejandro Álvarez Castro, Joaquín Ordieres-Meré,
- Abstract要約: 本稿では,収益コールのセマンティックにリッチな埋め込みを生成するために設計された,新しいマルチモーダルフレームワークを提案する。
結果として得られる埋め込みは、感情的なトーン、構造論理、主題的アライメントを反映する安定で意味のある表現を形成する。
提案システムは,遠隔医療,教育,政治談話など,他の非記述的コミュニケーション領域に一般化される。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Earnings calls represent a uniquely rich and semi-structured source of financial communication, blending scripted managerial commentary with unscripted analyst dialogue. Although recent advances in financial sentiment analysis have integrated multi-modal signals, such as textual content and vocal tone, most systems rely on flat document-level or sentence-level models, failing to capture the layered discourse structure of these interactions. This paper introduces a novel multi-modal framework designed to generate semantically rich and structurally aware embeddings of earnings calls, by encoding them as hierarchical discourse trees. Each node, comprising either a monologue or a question-answer pair, is enriched with emotional signals derived from text, audio, and video, as well as structured metadata including coherence scores, topic labels, and answer coverage assessments. A two-stage transformer architecture is proposed: the first encodes multi-modal content and discourse metadata at the node level using contrastive learning, while the second synthesizes a global embedding for the entire conference. Experimental results reveal that the resulting embeddings form stable, semantically meaningful representations that reflect affective tone, structural logic, and thematic alignment. Beyond financial reporting, the proposed system generalizes to other high-stakes unscripted communicative domains such as tele-medicine, education, and political discourse, offering a robust and explainable approach to multi-modal discourse representation. This approach offers practical utility for downstream tasks such as financial forecasting and discourse evaluation, while also providing a generalizable method applicable to other domains involving high-stakes communication.
- Abstract(参考訳): Earningsコールは、スクリプト化された管理コメントと説明されていないアナリストの対話を混ぜた、ユニークでリッチで半構造化された金融コミュニケーションの源である。
金融感情分析の最近の進歩は、テキストの内容や声調などのマルチモーダル信号を統合しているが、ほとんどのシステムは平らな文書レベルや文レベルモデルに依存しており、これらの相互作用の層状談話構造を捉えていない。
本稿では,階層的な談話木としてエンコードすることで,収益コールのセマンティックにリッチで構造的に意識された埋め込みを生成するために設計された,新しいマルチモーダルフレームワークを提案する。
各ノードは、モノローグまたは質問応答ペアで構成され、テキスト、オーディオ、ビデオから派生した感情的な信号と、コヒーレンススコア、トピックラベル、回答カバレッジアセスメントを含む構造化されたメタデータに富む。
コントラスト学習を用いて,マルチモーダルコンテンツと談話メタデータをノードレベルで符号化し,コンファレンス全体のグローバル埋め込みを合成する2段階トランスフォーマーアーキテクチャを提案する。
実験結果から, 結果として得られる埋め込みは, 情緒的トーン, 構造論理, 主題的アライメントを反映した, 安定で意味のある表現を形成することが明らかとなった。
ファイナンシャルレポーティング以外にも、遠隔医療、教育、政治談話など、他の非説明領域に一般化し、マルチモーダル談話表現に対する堅牢で説明可能なアプローチを提供する。
このアプローチは、財務予測や談話評価などの下流タスクに実用的な機能を提供し、また、ハイテイク通信を含む他の領域に適用可能な一般化可能な方法を提供する。
関連論文リスト
- Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Unsupervised Mutual Learning of Discourse Parsing and Topic Segmentation in Dialogue [37.618612723025784]
対話システムでは、会話の焦点の管理と対話のコーディネートにおいて、会話が重要な役割を果たす。
修辞的構造と主題的構造という2つの重要な構造から構成される。
我々は、修辞構造とトピック構造を統合する統一表現を導入し、それら間のセマンティック一貫性を確保する。
本稿では,レトリック構造とトピック構造を協調的にモデル化し,追加アノテーションを必要とせずに相互に強化できる教師なし相互学習フレームワーク(UMLF)を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:10:50Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - A non-hierarchical attention network with modality dropout for textual
response generation in multimodal dialogue systems [11.043581046605139]
本稿では,HREDフレームワークを捨て,各発話を符号化し,文脈表現をモデル化する非階層型アテンションネットワークを提案する。
提案手法は既存の手法より優れ,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-19T03:08:16Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。