論文の概要: Few-shot Learning for Multi-modal Social Media Event Filtering
- arxiv url: http://arxiv.org/abs/2211.10340v1
- Date: Wed, 16 Nov 2022 22:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:53:44.957134
- Title: Few-shot Learning for Multi-modal Social Media Event Filtering
- Title(参考訳): マルチモーダルなソーシャルメディアイベントフィルタリングのためのFew-shot Learning
- Authors: Jos\'e Nascimento, Jo\~ao Phillipe Cardenuto, Jing Yang, Anderson
Rocha
- Abstract要約: ソーシャルメディアは、イベント分析の重要なデータソースとなっている。
イベントフィルタリングの既存のソリューションのほとんどは、トレーニングのための完全に教師付きメソッドに依存しています。
本稿では,ラベル付きサンプル学習問題に対処するグラフベースの数ショット学習パイプラインを提案する。
- 参考スコア(独自算出の注目度): 16.999039588021255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media has become an important data source for event analysis. When
collecting this type of data, most contain no useful information to a target
event. Thus, it is essential to filter out those noisy data at the earliest
opportunity for a human expert to perform further inspection. Most existing
solutions for event filtering rely on fully supervised methods for training.
However, in many real-world scenarios, having access to large number of labeled
samples is not possible. To deal with a few labeled sample training problem for
event filtering, we propose a graph-based few-shot learning pipeline. We also
release the Brazilian Protest Dataset to test our method. To the best of our
knowledge, this dataset is the first of its kind in event filtering that
focuses on protests in multi-modal social media data, with most of the text in
Portuguese. Our experimental results show that our proposed pipeline has
comparable performance with only a few labeled samples (60) compared with a
fully labeled dataset (3100). To facilitate the research community, we make our
dataset and code available at https://github.com/jdnascim/7Set-AL.
- Abstract(参考訳): ソーシャルメディアはイベント分析の重要なデータソースとなっている。
このタイプのデータを収集する場合、ほとんどはターゲットイベントに関する有用な情報は含まない。
したがって、人間の専門家がさらなる検査を行う最初期の機会に、これらのノイズデータをフィルタリングすることが不可欠である。
イベントフィルタリングの既存のソリューションのほとんどは、トレーニングのための完全な教師付きメソッドに依存している。
しかし、多くの実世界のシナリオでは、多数のラベル付きサンプルにアクセスできない。
イベントフィルタリングのためのラベル付きサンプルトレーニング問題に対処するため,グラフベースの数ショット学習パイプラインを提案する。
メソッドをテストするためにブラジルのProtest Datasetもリリースしています。
われわれの知る限りでは、このデータセットは、マルチモーダルなソーシャルメディアデータにおける抗議活動に焦点を絞ったイベントフィルタリングの最初のものだ。
実験の結果,提案するパイプラインは,完全ラベル付きデータセット(3100)と比較して,少数のラベル付きサンプル(60)と同等の性能を示した。
研究コミュニティを促進するため、データセットとコードはhttps://github.com/jdnascim/7set-alで利用可能です。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。