論文の概要: SoMeLVLM: A Large Vision Language Model for Social Media Processing
- arxiv url: http://arxiv.org/abs/2402.13022v1
- Date: Tue, 20 Feb 2024 14:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:09:11.785786
- Title: SoMeLVLM: A Large Vision Language Model for Social Media Processing
- Title(参考訳): SoMeLVLM:ソーシャルメディア処理のための大規模ビジョン言語モデル
- Authors: Xinnong Zhang, Haoyu Kuang, Xinyi Mou, Hanjia Lyu, Kun Wu, Siming
Chen, Jiebo Luo, Xuanjing Huang, Zhongyu Wei
- Abstract要約: ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
- 参考スコア(独自算出の注目度): 78.47310657638567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growth of social media, characterized by its multimodal nature, has led
to the emergence of diverse phenomena and challenges, which calls for an
effective approach to uniformly solve automated tasks. The powerful Large
Vision Language Models make it possible to handle a variety of tasks
simultaneously, but even with carefully designed prompting methods, the general
domain models often fall short in aligning with the unique speaking style and
context of social media tasks. In this paper, we introduce a Large Vision
Language Model for Social Media Processing (SoMeLVLM), which is a cognitive
framework equipped with five key capabilities including knowledge &
comprehension, application, analysis, evaluation, and creation. SoMeLVLM is
designed to understand and generate realistic social media behavior. We have
developed a 654k multimodal social media instruction-tuning dataset to support
our cognitive framework and fine-tune our model. Our experiments demonstrate
that SoMeLVLM achieves state-of-the-art performance in multiple social media
tasks. Further analysis shows its significant advantages over baselines in
terms of cognitive abilities.
- Abstract(参考訳): ソーシャルメディアの成長はその多様性によって特徴づけられ、様々な現象や課題が出現し、自動化されたタスクを統一的に解決するための効果的なアプローチが求められている。
強力なLarge Vision Language Modelsは、さまざまなタスクを同時に扱うことができるが、慎重に設計されたプロンプトメソッドであっても、一般的なドメインモデルは、ソーシャルメディアタスクのユニークな話し方やコンテキストと整合性に欠けることが多い。
本稿では,知識と理解,応用,分析,評価,創造の5つの鍵となる能力を備えた認知フレームワークである,ソーシャルメディア処理のための大規模ビジョン言語モデル(somelvlm)を提案する。
SoMeLVLMは、リアルなソーシャルメディアの振る舞いを理解し、生成するように設計されている。
認知フレームワークをサポートし,モデルを微調整するために,654kのマルチモーダルソーシャルメディアインストラクションチューニングデータセットを開発した。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成することを示す。
さらなる分析は、認知能力の点で、ベースラインよりも大きな利点を示している。
関連論文リスト
- MM-Soc: Benchmarking Multimodal Large Language Models in Social Media
Platforms [27.610607218826157]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
我々は,モデルの社会的理解能力の向上の必要性を浮き彫りにして,重要な性能格差を特定した。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Improving Contextual Congruence Across Modalities for Effective
Multimodal Marketing using Knowledge-infused Learning [3.3281180957341117]
大規模言語 (LLM) とビジョンモデル (LVM) は、いまだに、モーダルなセマンティックな関係を持つ全体的意味を捉えている。
我々は、ダウンストリームタスクの性能を向上させるために、大きなVLMを持つ知識グラフの形で、明示的なコモンセンス知識を結合するフレームワークを設計する。
提案手法は,潜在的に説得力のあるマルチモーダルキャンペーンの早期発見と,マーケティング理論の評価と強化を可能にする。
論文 参考訳(メタデータ) (2024-02-06T00:51:27Z) - MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V [44.0908994116986]
視覚言語モデル(MLLM)は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
MLLM-Benchは、Vicunaにインスパイアされた革新的なベンチマークで、さまざまなシナリオにまたがる。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。