Fugu-MT 論文翻訳(概要): MEANT: Multimodal Encoder for Antecedent Information

論文の概要: MEANT: Multimodal Encoder for Antecedent Information

arxiv url: http://arxiv.org/abs/2411.06616v1
Date: Sun, 10 Nov 2024 22:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.299752
Title: MEANT: Multimodal Encoder for Antecedent Information
Title（参考訳）: MEANT: 先行情報のためのマルチモーダルエンコーダ
Authors: Benjamin Iyoya Irving, Annika Marie Schoene,
Abstract要約: この研究は、(i)MEANTモデル、(ii)TempStockと呼ばれる新しいデータセット、および(ii)Antecedent情報のためのマルチモーダルを紹介します。私たちはMEANTが既存のベースラインのパフォーマンスを15%以上改善していることに気付きました。
参考スコア（独自算出の注目度）: 3.10770247120758
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The stock market provides a rich well of information that can be split across modalities, making it an ideal candidate for multimodal evaluation. Multimodal data plays an increasingly important role in the development of machine learning and has shown to positively impact performance. But information can do more than exist across modes -- it can exist across time. How should we attend to temporal data that consists of multiple information types? This work introduces (i) the MEANT model, a Multimodal Encoder for Antecedent information and (ii) a new dataset called TempStock, which consists of price, Tweets, and graphical data with over a million Tweets from all of the companies in the S&P 500 Index. We find that MEANT improves performance on existing baselines by over 15%, and that the textual information affects performance far more than the visual information on our time-dependent task from our ablation study.
Abstract（参考訳）: 株式市場は、モダリティに分割できる豊富な情報を提供しており、マルチモーダル評価の理想的な候補である。マルチモーダルデータは、機械学習の発展においてますます重要な役割を担い、パフォーマンスに肯定的な影響を与えている。しかし、情報はあらゆるモードにまたがって存在する以上のことができる。複数の情報型からなる時間データにどのように対応すべきか? この研究が紹介する (i)Multimodal Encoder for Antecedent Information及びMEANTモデルこのデータセットは、S&P 500 Indexのすべての企業から100万ツイート以上の価格、つぶやき、グラフィカルデータで構成されている。その結果, MEANTは既存のベースラインの性能を15%以上向上させ, テキスト情報は我々の時間依存タスクの視覚情報よりもはるかにパフォーマンスに影響を及ぼすことがわかった。

関連論文リスト

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文参考訳（メタデータ） (2024-12-23T18:15:19Z)
Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文参考訳（メタデータ） (2024-10-24T09:03:48Z)
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文参考訳（メタデータ） (2024-07-18T01:33:20Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Language and Multimodal Models in Sports: A Survey of Datasets and Applications [20.99857526324661]
自然言語処理(NLP)とマルチモーダルモデルの最近の統合は、スポーツ分析の分野を進歩させてきた。この調査は、2020年以降のこれらのイノベーションを駆動するデータセットとアプリケーションの包括的なレビューを示す。
論文参考訳（メタデータ） (2024-06-18T03:59:26Z)
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文参考訳（メタデータ） (2024-04-29T04:01:30Z)
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-06-08T15:17:04Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処するマルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文参考訳（メタデータ） (2021-10-21T05:38:45Z)
M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。 M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文参考訳（メタデータ） (2021-09-09T13:50:22Z)
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文参考訳（メタデータ） (2020-12-16T19:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。