論文の概要: LLVMs4Protest: Harnessing the Power of Large Language and Vision Models
for Deciphering Protests in the News
- arxiv url: http://arxiv.org/abs/2311.18241v1
- Date: Thu, 30 Nov 2023 04:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:06:45.631316
- Title: LLVMs4Protest: Harnessing the Power of Large Language and Vision Models
for Deciphering Protests in the News
- Title(参考訳): llvms4protest: ニュースの抗議を解読するために、大規模な言語とビジョンモデルの力を活用する
- Authors: Yongjun Zhang
- Abstract要約: 本稿では,テキストと画像データを用いて,新聞記事における潜在的な抗議を推測するために,長変圧器と斜変圧器v2を含む2つの大きな事前訓練型変圧器モデルを微調整した方法について述べる。
本報告は,LLVMを用いたテキストおよび画像データにおける抗議行動の推測に関心のある社会運動学者を対象とした,短い技術的報告である。
- 参考スコア(独自算出の注目度): 3.313485776871956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language and vision models have transformed how social movements
scholars identify protest and extract key protest attributes from multi-modal
data such as texts, images, and videos. This article documents how we
fine-tuned two large pretrained transformer models, including longformer and
swin-transformer v2, to infer potential protests in news articles using textual
and imagery data. First, the longformer model was fine-tuned using the Dynamic
of Collective Action (DoCA) Corpus. We matched the New York Times articles with
the DoCA database to obtain a training dataset for downstream tasks. Second,
the swin-transformer v2 models was trained on UCLA-protest imagery data.
UCLA-protest project contains labeled imagery data with information such as
protest, violence, and sign. Both fine-tuned models will be available via
\url{https://github.com/Joshzyj/llvms4protest}. We release this short technical
report for social movement scholars who are interested in using LLVMs to infer
protests in textual and imagery data.
- Abstract(参考訳): 大規模な言語とビジョンモデルは、社会運動学者が抗議を識別し、テキスト、画像、ビデオなどのマルチモーダルデータから重要な抗議属性を抽出する方法を変えてきた。
本稿は,テキストデータと画像データを用いて,ニュース記事の潜在的な抗議を推測するために,longformer と swin-transformer v2 を含む2つの大規模事前学習トランスフォーマーモデルを微調整した方法について述べる。
まず,doca(dynamic of collective action)コーパスを用いてロングフォーマーモデルを微調整した。
New York Timesの記事とDoCAデータベースを比較して、下流タスクのトレーニングデータセットを得ました。
次に, UCLA画像データに基づいてスウィントランスフォーマーv2モデルを訓練した。
UCLA-protestプロジェクトは、抗議、暴力、サインなどの情報を含むラベル付き画像データを含んでいる。
どちらのモデルも \url{https://github.com/Joshzyj/llvms4protest} で利用できる。
本報告は,LLVMを用いたテキストおよび画像データにおける抗議行動の推測に関心のある社会運動学者を対象とした,短い技術的報告である。
関連論文リスト
- TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation [22.782099757385804]
TIP-I2Vは、ユーザが提供するテキストと画像プロンプトの大規模なデータセットとしては初めてである。
我々は、5つの最先端画像からビデオまでのモデルから、対応する生成されたビデオを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:52:43Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Robustness Analysis of Video-Language Models Against Visual and Language
Perturbations [10.862722733649543]
この研究は、様々な現実世界の摂動に対するビデオ言語ロバスト性モデルに関する最初の広範な研究である。
我々は90の異なる視覚と35の異なるテキスト摂動を利用する2つの大規模ベンチマークデータセットMSRVTT-PとYouCook2-Pを提案する。
論文 参考訳(メタデータ) (2022-07-05T16:26:05Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Using Word Embeddings to Analyze Protests News [2.024222101808971]
既存のワード埋め込みである word2vec と FastTest を ELMo と DistilBERT に置き換えるため、2つの優れたモデルが選択されている。
単語の袋やそれ以前のベクトルアプローチとは異なり、ELMo と DistilBERT はテキスト内の文脈情報に基づいて意味をキャプチャすることで、単語をベクトルの列として表現する。
論文 参考訳(メタデータ) (2022-03-11T12:25:59Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。