論文の概要: MIKO: Multimodal Intention Knowledge Distillation from Large Language
Models for Social-Media Commonsense Discovery
- arxiv url: http://arxiv.org/abs/2402.18169v2
- Date: Thu, 29 Feb 2024 06:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:12:26.495342
- Title: MIKO: Multimodal Intention Knowledge Distillation from Large Language
Models for Social-Media Commonsense Discovery
- Title(参考訳): MIKO:ソーシャルメディアコモンセンス発見のための大規模言語モデルからのマルチモーダルインテンション知識蒸留
- Authors: Feihong Lu, Weiqi Wang, Yangyifei Luo, Ziqin Zhu, Qingyun Sun, Baixuan
Xu, Haochen Shi, Shiqi Gao, Qian Li, Yangqiu Song, Jianxin Li
- Abstract要約: MIKOは、ユーザ意図を明らかにするために、LLM(Large Language Model)とMLLM(Multimodal Large Language Model)を協調的に利用するフレームワークである。
公開されているソーシャルメディアデータセットにMIKOを適用し,137,287の投稿に根ざした1,372Kの意図を特徴とする意図的知識ベースを構築した。
- 参考スコア(独自算出の注目度): 45.379493929947046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media has become a ubiquitous tool for connecting with others, staying
updated with news, expressing opinions, and finding entertainment. However,
understanding the intention behind social media posts remains challenging due
to the implicitness of intentions in social media posts, the need for
cross-modality understanding of both text and images, and the presence of noisy
information such as hashtags, misspelled words, and complicated abbreviations.
To address these challenges, we present MIKO, a Multimodal Intention Kowledge
DistillatiOn framework that collaboratively leverages a Large Language Model
(LLM) and a Multimodal Large Language Model (MLLM) to uncover users'
intentions. Specifically, we use an MLLM to interpret the image and an LLM to
extract key information from the text and finally instruct the LLM again to
generate intentions. By applying MIKO to publicly available social media
datasets, we construct an intention knowledge base featuring 1,372K intentions
rooted in 137,287 posts. We conduct a two-stage annotation to verify the
quality of the generated knowledge and benchmark the performance of widely used
LLMs for intention generation. We further apply MIKO to a sarcasm detection
dataset and distill a student model to demonstrate the downstream benefits of
applying intention knowledge.
- Abstract(参考訳): ソーシャルメディアは、他の人とつながり、ニュースをアップデートし、意見を述べ、エンターテイメントを見つけるためのユビキタスなツールになっている。
しかし、ソーシャルメディア投稿における意図の暗黙性、テキストと画像の相互モダリティ理解の必要性、ハッシュタグやスペルミス、複雑な略語といった騒がしい情報の存在などにより、ソーシャルメディア投稿の意図の理解は依然として困難である。
これらの課題に対処するため、ユーザ意図を明らかにするために、LLM(Large Language Model)とMLLM(Multimodal Large Language Model)を協調的に利用するMultimodal Intention Kowledge DistillatiOnフレームワークであるMIKOを提案する。
具体的には、MLLMを用いて画像とLCMを解釈し、テキストからキー情報を抽出し、最後に再度LSMに指示して意図を生成する。
公開ソーシャルメディアデータセットにmikoを適用することで,137,287の投稿に根ざした1,372kのインテントを特徴とするインテンションナレッジベースを構築する。
生成した知識の品質を検証するために,二段階アノテーションを実施し,意図生成のための広く使われているllmの性能をベンチマークする。
さらに,煙道検出データセットにMIKOを適用し,学生モデルを蒸留し,意図的知識を適用した下流の利点を示す。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - OVEL: Large Language Model as Memory Manager for Online Video Entity
Linking [57.70595589893391]
我々は,オンラインビデオにおける言及と,高精度かつ時系列の知識ベースとの接続を確立することを目的とした,オンラインビデオエンティティリンクOVELというタスクを提案する。
OVEL タスクを効果的に処理するために,Large Language Model が管理するメモリブロックを活用し,知識ベースからエンティティ候補を抽出し,メモリ管理における LLM 性能を向上させる。
論文 参考訳(メタデータ) (2024-03-03T06:47:51Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms [25.73585435351771]
本稿では,マルチモーダル大規模言語モデルによるソーシャルメディアコンテンツの理解を評価するためのベンチマークであるMM-Socを紹介する。
MM-Socは、注目すべきマルチモーダルデータセットをコンパイルし、新しい大規模なYouTubeタグ付けデータセットを組み込む。
分析の結果、ゼロショット環境では、様々なMLLMが一般的にソーシャルメディアのタスクを扱うのに困難を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T22:27:40Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Can Large Language Models Detect Rumors on Social Media? [21.678652268122296]
ソーシャルメディア上でのうわさ検出にLarge Language Models (LLMs) を用いることを検討した。
そこで我々は,LLMにニュースやコメントの重要な手がかりを推論するように指導する手法として,LeRuD(LeRuD)アプローチを提案する。
LeRuDは最先端の噂検出モデルを3.2%から7.7%上回っている。
論文 参考訳(メタデータ) (2024-02-06T11:33:57Z) - Large Model Based Referring Camouflaged Object Detection [51.80619142347807]
Referring camouflaged object detection (Ref-COD)は、テキストまたはビジュアル参照にマッチした特定のcamouflaged objectを分割することを目的とした、最近提案された問題である。
我々のモチベーションは、最近のMLLM(Multimodal Large Language Models)のセマンティックインテリジェンスと本質的な知識をフル活用して、この複雑なタスクを人間的な方法で分解することである。
MLKGと呼ばれるRef-CODのための大規模モデルベースマルチレベル知識誘導型マルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T13:45:09Z) - HICL: Hashtag-Driven In-Context Learning for Social Media Natural
Language Understanding [15.743523533234224]
本稿では,ソーシャルメディア上での自然言語理解のための新しいハッシュタグ駆動型インコンテキスト学習フレームワークを提案する。
我々の目標は、モデル#Encoderがトピック関連セマンティック情報を組み込むことで、トピック関連投稿を検索できるようにすることである。
In-context NLUベンチマークを作成するために4500万のつぶやきを収集し、7つの下流タスクの実験結果から、HICLは過去の最先端の成果を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-08-19T11:31:45Z) - Misinformation Detection in Social Media Video Posts [0.4724825031148411]
ソーシャルメディアプラットフォームによるショートフォームビデオは、ソーシャルメディアプロバイダーにとって重要な課題となっている。
本研究では,ソーシャルメディア投稿における誤情報検出手法を開発し,ビデオやテキストなどのモダリティを活用する。
われわれはTwitterから16万の動画投稿を収集し、自己教師付き学習を活用して、共同視覚およびテキストデータの表現表現を学ぶ。
論文 参考訳(メタデータ) (2022-02-15T20:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。