論文の概要: Stance-Driven Multimodal Controlled Statement Generation: New Dataset and Task
- arxiv url: http://arxiv.org/abs/2504.03295v1
- Date: Fri, 04 Apr 2025 09:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:37.413526
- Title: Stance-Driven Multimodal Controlled Statement Generation: New Dataset and Task
- Title(参考訳): スタンス駆動型マルチモーダル制御ステートメント生成:新しいデータセットとタスク
- Authors: Bingqian Wang, Quan Fang, Jiachen Sun, Xiaoxiao Ma,
- Abstract要約: テキストと画像によるツイートに対するスタンス駆動による制御可能なコンテンツ生成の新たな課題について検討する。
政治談話におけるマルチモーダル・スタンス・ジェネレーション・データセット(StanceGen2024)を作成する。
本稿では,マルチモーダル特徴の重み付けとスタントガイダンスを統合したスタンス駆動型マルチモーダル生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.63475566746729
- License:
- Abstract: Formulating statements that support diverse or controversial stances on specific topics is vital for platforms that enable user expression, reshape political discourse, and drive social critique and information dissemination. With the rise of Large Language Models (LLMs), controllable text generation towards specific stances has become a promising research area with applications in shaping public opinion and commercial marketing. However, current datasets often focus solely on pure texts, lacking multimodal content and effective context, particularly in the context of stance detection. In this paper, we formally define and study the new problem of stance-driven controllable content generation for tweets with text and images, where given a multimodal post (text and image/video), a model generates a stance-controlled response. To this end, we create the Multimodal Stance Generation Dataset (StanceGen2024), the first resource explicitly designed for multimodal stance-controllable text generation in political discourse. It includes posts and user comments from the 2024 U.S. presidential election, featuring text, images, videos, and stance annotations to explore how multimodal political content shapes stance expression. Furthermore, we propose a Stance-Driven Multimodal Generation (SDMG) framework that integrates weighted fusion of multimodal features and stance guidance to improve semantic consistency and stance control. We release the dataset and code (https://anonymous.4open.science/r/StanceGen-BE9D) for public use and further research.
- Abstract(参考訳): 特定のトピックに対する多様な、あるいは議論の的になっているスタンスを支持するフォーマッティングステートメントは、ユーザ表現を可能とし、政治的言説を再形成し、社会的批判と情報伝達を促進するプラットフォームにとって不可欠である。
LLM(Large Language Models)の台頭に伴い、特定のスタンスに対する制御可能なテキスト生成は、世論や商業マーケティングを形作る分野として有望な研究領域となっている。
しかし、現在のデータセットは純粋なテキストにのみ焦点をあてることが多く、特にスタンス検出の文脈において、マルチモーダルな内容と効果的なコンテキストが欠如している。
本稿では,複数モーダルポスト(テキストと画像/ビデオ)が与えられた場合,モデルがスタンス制御された応答を生成するという,スタンス駆動型コンテンツ生成の新しい課題を正式に定義し,検討する。
この目的のために、政治談話におけるマルチモーダル・スタンス・ジェネレーション・データセット(StanceGen2024)を作成する。
2024年アメリカ合衆国大統領選挙の投稿やユーザーコメント、テキスト、画像、ビデオ、スタントアノテーションなどが含まれ、マルチモーダルな政治コンテンツがスタント表現をどのように形成するかを探求している。
さらに,マルチモーダル特徴の重み付けとスタントガイダンスを統合し,セマンティック一貫性とスタント制御を改善するスタンス駆動型マルチモーダル生成(SDMG)フレームワークを提案する。
我々はデータセットとコード(https://anonymous.4open.science/r/StanceGen-BE9D)を公開し、さらなる研究を行っている。
関連論文リスト
- Exploring Vision Language Models for Multimodal and Multilingual Stance Detection [9.079302402271491]
ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、堅牢な自然言語処理タスクの必要性を強調している。
以前の研究では主にテキストのみの入力に焦点が当てられ、マルチモーダルなシナリオは比較的過小評価されている。
本稿では,マルチモーダルおよび多言語姿勢検出タスクにおけるVLM(Vision-Language Models)の評価を行う。
論文 参考訳(メタデータ) (2025-01-29T13:39:53Z) - Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model [9.413870182630362]
我々は,MmMtCSDと呼ばれるマルチモーダル対話姿勢検出データセットを導入する。
本稿では,テキストおよび視覚的モーダルから共同姿勢表現を学習する,多モーダルな大規模言語モデル姿勢検出フレームワーク(MLLM-SD)を提案する。
MmMtCSD実験は,マルチモーダル姿勢検出のためのMLLM-SD手法の最先端性能を示す。
論文 参考訳(メタデータ) (2024-09-01T03:16:30Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。