Fugu-MT 論文翻訳(概要): A Survey on Multi-modal Summarization

論文の概要: A Survey on Multi-modal Summarization

arxiv url: http://arxiv.org/abs/2109.05199v1
Date: Sat, 11 Sep 2021 06:39:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-18 16:15:55.477618
Title: A Survey on Multi-modal Summarization
Title（参考訳）: マルチモーダル要約に関する調査研究
Authors: Anubhav Jangra, Adam Jatowt, Sriparna Saha, Mohammad Hasanuzzaman
Abstract要約: トピックに関するすべての重要な情報を取得することは困難であり、自動マルチモーダル要約(MMS)の課題が不可欠である。本稿では,MMS領域における既存研究を包括的に調査する。
参考スコア（独自算出の注目度）: 28.590244174715536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The new era of technology has brought us to the point where it is convenient for people to share their opinions over an abundance of platforms. These platforms have a provision for the users to express themselves in multiple forms of representations, including text, images, videos, and audio. This, however, makes it difficult for users to obtain all the key information about a topic, making the task of automatic multi-modal summarization (MMS) essential. In this paper, we present a comprehensive survey of the existing research in the area of MMS.
Abstract（参考訳）: テクノロジーの新しい時代は、多くのプラットフォームで意見を共有するのに便利である点に私たちを導いてくれた。これらのプラットフォームは、ユーザーがテキスト、画像、ビデオ、オーディオなど、複数の表現形式で表現できるように規定されている。しかし、これによってユーザがトピックに関するすべての重要な情報を取得することが難しくなり、mms(automatic multi-modal summarization)のタスクが必須になる。本稿では,MMS領域における既存研究を包括的に調査する。

関連論文リスト

Arabic Multimodal Machine Learning: Datasets, Applications, Approaches, and Challenges [1.0323998873402922]
アラビア語のMMLは、テキスト、オーディオ、ビジュアルなどの様々なモダリティからの情報の統合と分析を目的としている。本稿では,新しい分類法を用いてアラビア語のMMLを分類し,既存の研究を解析することによって検討する。
論文参考訳（メタデータ） (2025-08-17T03:59:27Z)
A Survey on Multimodal Recommender Systems: Recent Advances and Future Directions [16.652996189513658]
本稿では, マルチモーダルレコメンダシステムにおける最近の研究動向を概観する。本稿では,既存のMSSモデルを特徴抽出,マルチモーダルフュージョン,ロス関数の4つの重要な領域に分類して紹介する。より高度で効果的なマルチモーダルレコメンデータシステムの開発に貢献したいと考えています。
論文参考訳（メタデータ） (2025-01-22T12:00:35Z)
Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文参考訳（メタデータ） (2024-12-03T03:59:03Z)
A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文参考訳（メタデータ） (2024-09-09T08:06:50Z)
SMP Challenge: An Overview and Analysis of Social Media Prediction Challenge [63.311045291016555]
ソーシャルメディアの人気予測(SMPP)は、オンライン投稿の今後の人気値を自動予測する重要なタスクである。本稿では,課題,データ,研究の進展について要約する。
論文参考訳（メタデータ） (2024-05-17T02:36:14Z)
Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-22T05:24:19Z)
Asking Multimodal Clarifying Questions in Mixed-Initiative Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文参考訳（メタデータ） (2024-02-12T16:04:01Z)
Detecting Multimedia Generated by Large AI Models: A Survey [25.97663040910416]
この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することである。メディアモダリティによって分類された検出手法のための新しい分類法を提案する。ソーシャルメディアの観点から焦点を絞った分析を行い、より広範な社会的影響を強調します。
論文参考訳（メタデータ） (2024-01-22T15:08:19Z)
GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。 GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文参考訳（メタデータ） (2023-11-13T18:36:50Z)
Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文参考訳（メタデータ） (2023-02-08T05:12:54Z)
A Review of Mobile Mapping Systems: From Sensors to Applications [0.8594140167290099]
センサやプラットフォームの種類に注目し,その機能や制限について論じるとともに,最近市場に出回っているMS技術の概要を概観する。モバイルマッピング技術のさまざまな利用事例を共通アプリケーションの一部をレビューし, 4) メリット,課題,および潜在的研究方向性に関する見解の共有について論じる。
論文参考訳（メタデータ） (2022-05-31T15:13:42Z)
Multi-modal Misinformation Detection: Approaches, Challenges and Opportunities [5.4482836906033585]
ソーシャルメディアプラットフォームは、テキストベースのフォーラムからマルチモーダル環境へと進化している。誤情報スプレッダーは、最近、テキストや画像などのモダリティ間のコンテキスト接続をターゲットにしている。マルチモーダルな誤情報検出の分野での新たな研究機会を見出すために,既存のアプローチを分析,分類,そして,それらが直面する課題や欠点に加えて特定する。
論文参考訳（メタデータ） (2022-03-25T19:45:33Z)
Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処するマルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文参考訳（メタデータ） (2021-10-21T05:38:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。