Fugu-MT 論文翻訳(概要): Exploring Vision Language Models for Multimodal and Multilingual Stance Detection

論文の概要: Exploring Vision Language Models for Multimodal and Multilingual Stance Detection

arxiv url: http://arxiv.org/abs/2501.17654v1
Date: Wed, 29 Jan 2025 13:39:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.616113
Title: Exploring Vision Language Models for Multimodal and Multilingual Stance Detection
Title（参考訳）: マルチモーダル・マルチ言語スタンス検出のための視覚言語モデルの検討
Authors: Jake Vasilakes, Carolina Scarton, Zhixue Zhao,
Abstract要約: ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、堅牢な自然言語処理タスクの必要性を強調している。以前の研究では主にテキストのみの入力に焦点が当てられ、マルチモーダルなシナリオは比較的過小評価されている。本稿では,マルチモーダルおよび多言語姿勢検出タスクにおけるVLM(Vision-Language Models)の評価を行う。
参考スコア（独自算出の注目度）: 9.079302402271491
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Social media's global reach amplifies the spread of information, highlighting the need for robust Natural Language Processing tasks like stance detection across languages and modalities. Prior research predominantly focuses on text-only inputs, leaving multimodal scenarios, such as those involving both images and text, relatively underexplored. Meanwhile, the prevalence of multimodal posts has increased significantly in recent years. Although state-of-the-art Vision-Language Models (VLMs) show promise, their performance on multimodal and multilingual stance detection tasks remains largely unexamined. This paper evaluates state-of-the-art VLMs on a newly extended dataset covering seven languages and multimodal inputs, investigating their use of visual cues, language-specific performance, and cross-modality interactions. Our results show that VLMs generally rely more on text than images for stance detection and this trend persists across languages. Additionally, VLMs rely significantly more on text contained within the images than other visual content. Regarding multilinguality, the models studied tend to generate consistent predictions across languages whether they are explicitly multilingual or not, although there are outliers that are incongruous with macro F1, language support, and model size.
Abstract（参考訳）: ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、言語間のスタンス検出やモダリティといった堅牢な自然言語処理タスクの必要性を強調している。以前の研究では、主にテキストのみの入力に焦点が当てられ、画像とテキストの両方に関わるようなマルチモーダルなシナリオは、比較的過小評価されている。一方、近年はマルチモーダルポストの普及が著しく進んでいる。最先端のVision-Language Models (VLMs) は将来性を示すが、マルチモーダルおよび多言語スタンス検出タスクにおける性能はほとんど検討されていない。本稿では、7つの言語とマルチモーダル入力を包含する新しい拡張データセット上での最先端VLMの評価を行い、視覚的手がかり、言語固有のパフォーマンス、モーダル間相互作用について検討する。以上の結果から,VLMは画像よりもテキストに依存しており,この傾向は言語間で持続していることがわかった。さらに、VLMは他のビジュアルコンテンツよりも画像に含まれるテキストに大きく依存している。マルチリンガル性に関して、研究されたモデルは、マクロF1、言語サポート、モデルサイズと矛盾するアウトリーチがあるにもかかわらず、明示的にマルチリンガルであるか否かに関わらず、言語間で一貫した予測を生成する傾向にある。

関連論文リスト

Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization [9.349707150988893]
本稿では,視覚的インストラクションチューニング中にテキストのみの多言語データを注入する連続多言語統合戦略を提案する。本手法は,視覚能力の低下を伴わない言語間の言語忠実度を著しく向上させる。
論文参考訳（メタデータ） (2025-03-28T16:26:52Z)
Cross-modal Information Flow in Multimodal Large Language Models [14.853197288189579]
大規模言語モデルにおいて,言語と視覚の異なるモダリティ間の情報フローについて検討する。 2つのモダリティを統合する過程には2つの異なる段階があることが分かる。
論文参考訳（メタデータ） (2024-11-27T18:59:26Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。 6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-13T14:41:05Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文参考訳（メタデータ） (2023-03-27T17:54:32Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。 7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文参考訳（メタデータ） (2022-10-19T12:21:39Z)
xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-09-13T15:58:21Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)
Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。ソースターゲットの文を潜時空間で関連付けることは依然として困難である。異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文参考訳（メタデータ） (2020-05-06T20:11:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。