論文の概要: A Survey on Multi-modal Summarization
- arxiv url: http://arxiv.org/abs/2109.05199v1
- Date: Sat, 11 Sep 2021 06:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 16:15:55.477618
- Title: A Survey on Multi-modal Summarization
- Title(参考訳): マルチモーダル要約に関する調査研究
- Authors: Anubhav Jangra, Adam Jatowt, Sriparna Saha, Mohammad Hasanuzzaman
- Abstract要約: トピックに関するすべての重要な情報を取得することは困難であり、自動マルチモーダル要約(MMS)の課題が不可欠である。
本稿では,MMS領域における既存研究を包括的に調査する。
- 参考スコア(独自算出の注目度): 28.590244174715536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The new era of technology has brought us to the point where it is convenient
for people to share their opinions over an abundance of platforms. These
platforms have a provision for the users to express themselves in multiple
forms of representations, including text, images, videos, and audio. This,
however, makes it difficult for users to obtain all the key information about a
topic, making the task of automatic multi-modal summarization (MMS) essential.
In this paper, we present a comprehensive survey of the existing research in
the area of MMS.
- Abstract(参考訳): テクノロジーの新しい時代は、多くのプラットフォームで意見を共有するのに便利である点に私たちを導いてくれた。
これらのプラットフォームは、ユーザーがテキスト、画像、ビデオ、オーディオなど、複数の表現形式で表現できるように規定されている。
しかし、これによってユーザがトピックに関するすべての重要な情報を取得することが難しくなり、mms(automatic multi-modal summarization)のタスクが必須になる。
本稿では,MMS領域における既存研究を包括的に調査する。
関連論文リスト
- Multi-modal Stance Detection: New Datasets and Model [59.428622374682234]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media
Platforms [27.610607218826157]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
我々は,モデルの社会的理解能力の向上の必要性を浮き彫りにして,重要な性能格差を特定した。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization
Benchmark and a Case Study on Summarizing Diverse Information from News
Articles [142.7366365876213]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Multimodal Recommender Systems: A Survey [6.022519399411655]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
本稿では,既存のMSSモデルについて,特徴相互作用,特徴強調,モデル最適化という3つのカテゴリで紹介する。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z) - A Review of Mobile Mapping Systems: From Sensors to Applications [0.8594140167290099]
センサやプラットフォームの種類に注目し,その機能や制限について論じるとともに,最近市場に出回っているMS技術の概要を概観する。
モバイルマッピング技術のさまざまな利用事例を共通アプリケーションの一部をレビューし, 4) メリット,課題,および潜在的研究方向性に関する見解の共有について論じる。
論文 参考訳(メタデータ) (2022-05-31T15:13:42Z) - Multi-modal Misinformation Detection: Approaches, Challenges and
Opportunities [6.123324869194196]
ソーシャルメディアプラットフォームは、テキストベースのフォーラムからマルチモーダル環境へと進化している。
誤情報スプレッダーは、最近、テキストや画像などのモダリティ間のコンテキスト接続をターゲットにしている。
マルチモーダルな誤情報検出の分野での新たな研究機会を見出すために,既存のアプローチを分析,分類,そして,それらが直面する課題や欠点に加えて特定する。
論文 参考訳(メタデータ) (2022-03-25T19:45:33Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。