論文の概要: Argumentative Stance Prediction: An Exploratory Study on Multimodality
and Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2310.07093v1
- Date: Wed, 11 Oct 2023 00:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:55:57.738326
- Title: Argumentative Stance Prediction: An Exploratory Study on Multimodality
and Few-Shot Learning
- Title(参考訳): 議論的スタンス予測:マルチモーダリティとFew-Shot学習に関する探索的研究
- Authors: Arushi Sharma, Abhibha Gupta, Maneesh Bilalpur
- Abstract要約: ツイートにおける姿勢予測のための画像の必要性を評価する。
私たちの研究は、微調整されたテキストベースの言語モデルの統合を示唆している。
その結果,画像内容が自然言語として要約される場合には,マルチモーダルモデルの性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To advance argumentative stance prediction as a multimodal problem, the First
Shared Task in Multimodal Argument Mining hosted stance prediction in crucial
social topics of gun control and abortion. Our exploratory study attempts to
evaluate the necessity of images for stance prediction in tweets and compare
out-of-the-box text-based large-language models (LLM) in few-shot settings
against fine-tuned unimodal and multimodal models. Our work suggests an
ensemble of fine-tuned text-based language models (0.817 F1-score) outperforms
both the multimodal (0.677 F1-score) and text-based few-shot prediction using a
recent state-of-the-art LLM (0.550 F1-score). In addition to the differences in
performance, our findings suggest that the multimodal models tend to perform
better when image content is summarized as natural language over their native
pixel structure and, using in-context examples improves few-shot performance of
LLMs.
- Abstract(参考訳): マルチモーダル問題としての議論的姿勢予測を推し進めるため, 銃規制や中絶といった重要な社会的話題において, 多モーダル・アーグメント・マイニングにおける第1共有課題がスタンス予測を主催した。
本研究は,ツイートにおけるスタンス予測のための画像の必要性を検証し,テキストベース大規模言語モデル(LLM)を微調整された非モーダル・マルチモーダルモデルと比較するものである。
我々の研究は,テキストベース言語モデル(0.817 F1スコア)がマルチモーダル(0.677 F1スコア)とテキストベースの少数ショット予測(0.550 F1スコア)の両方より優れていることを示唆している。
性能の相違に加えて,画像コンテンツがネイティブピクセル構造よりも自然言語として要約された場合,マルチモーダルモデルの方がパフォーマンスが向上する傾向が示唆された。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Benchmarking Sequential Visual Input Reasoning and Prediction in
Multimodal Large Language Models [21.438427686724932]
本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。
本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。
実験により,提案したベンチマークの音質と評価方法が検証された。
論文 参考訳(メタデータ) (2023-10-20T13:14:38Z) - A Comparative Analysis of Pretrained Language Models for Text-to-Speech [13.962029761484022]
State-of-the-the-art text-to-speech (TTS) システムは、韻律を高め、より自然な音声を生成するために、事前訓練された言語モデル(PLM)を利用している。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究は、異なるPLMがTSに与える影響を調査する最初の研究である。
論文 参考訳(メタデータ) (2023-09-04T13:02:27Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。