論文の概要: CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ)
- arxiv url: http://arxiv.org/abs/2504.03906v1
- Date: Fri, 04 Apr 2025 20:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:51.893255
- Title: CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ)
- Title(参考訳): CliME: ソーシャルメディアと気候調整基準(CAQ)におけるマルチモーダル気候談話の評価
- Authors: Abhilekh Borah, Hasnat Md Abdullah, Kangda Wei, Ruihong Huang,
- Abstract要約: CliMEは、TwitterとRedditの2579の投稿からなる、同種のマルチモーダルデータセットである。
このベンチマークはユーモラスなミームと懐疑的な投稿の多様なコレクションを特徴とし、これらのフォーマットが複雑な問題を、世論や政策に関する議論を形作るような、バイラルな物語にどのように蒸留するかを捉えている。
本稿では,5つの異なる次元(Articulation, Evidence, Resonance, transition, specificity)からなる新しい尺度であるClimate Alignment Quotient(CAQ)を紹介する。
以上の結果から,ほとんどのLCMは批判と正義において比較的良好に機能するが,アクティビリティーの軸では常に性能が劣っていることが示唆された。
- 参考スコア(独自算出の注目度): 14.065907685322097
- License:
- Abstract: The rise of Large Language Models (LLMs) has raised questions about their ability to understand climate-related contexts. Though climate change dominates social media, analyzing its multimodal expressions is understudied, and current tools have failed to determine whether LLMs amplify credible solutions or spread unsubstantiated claims. To address this, we introduce CliME (Climate Change Multimodal Evaluation), a first-of-its-kind multimodal dataset, comprising 2579 Twitter and Reddit posts. The benchmark features a diverse collection of humorous memes and skeptical posts, capturing how these formats distill complex issues into viral narratives that shape public opinion and policy discussions. To systematically evaluate LLM performance, we present the Climate Alignment Quotient (CAQ), a novel metric comprising five distinct dimensions: Articulation, Evidence, Resonance, Transition, and Specificity. Additionally, we propose three analytical lenses: Actionability, Criticality, and Justice, to guide the assessment of LLM-generated climate discourse using CAQ. Our findings, based on the CAQ metric, indicate that while most evaluated LLMs perform relatively well in Criticality and Justice, they consistently underperform on the Actionability axis. Among the models evaluated, Claude 3.7 Sonnet achieves the highest overall performance. We publicly release our CliME dataset and code to foster further research in this domain.
- Abstract(参考訳): LLM(Large Language Models)の台頭は、気候に関連した文脈を理解する能力に関する疑問を提起している。
気候変動はソーシャルメディアを支配しているが、そのマルチモーダル表現の分析は検討されていない。
CliME(Climate Change Multimodal Evaluation, CLIME)は、TwitterとRedditの2579の投稿からなるマルチモーダルデータセットである。
このベンチマークはユーモラスなミームと懐疑的な投稿の多様なコレクションを特徴とし、これらのフォーマットが複雑な問題を、世論や政策に関する議論を形作るような、バイラルな物語にどのように蒸留するかを捉えている。
LLMの性能を体系的に評価するために, アーティキュレーション, エビデンス, 共鳴, 遷移, 特異性という5つの異なる次元からなる新しい尺度であるClimate Alignment Quotient (CAQ) を提示する。
さらに,LCM生成した気候談話の評価をCAQを用いて導くために,行動可能性,臨界性,正義の3つの分析レンズを提案する。
以上の結果から,ほとんどのLCMは批判と正義において比較的良好に機能するが,アクティビティの軸では常に性能が劣っていることが示唆された。
評価されたモデルの中で、Claude 3.7 Sonnetは全体的なパフォーマンスが最も高い。
我々は、この領域におけるさらなる研究を促進するために、CliMEデータセットとコードを公開しています。
関連論文リスト
- Enhancing LLMs for Governance with Human Oversight: Evaluating and Aligning LLMs on Expert Classification of Climate Misinformation for Detecting False or Misleading Claims about Climate Change [0.0]
気候の誤報は、大規模言語モデル(LLM)の開発によって著しく悪化する可能性がある問題である。
本研究では, LLMが問題ではなく, オンラインの偽情報の緩和に有効である可能性を評価する。
論文 参考訳(メタデータ) (2025-01-23T16:21:15Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Unlearning Climate Misinformation in Large Language Models [17.95497650321137]
気候変動に関する誤報は、人類にとって最も深刻な脅威の1つに対処する上で、重要な障害となっている。
本稿では,気候情報に関する大規模言語モデル(LLM)の事実的精度について検討する。
論文 参考訳(メタデータ) (2024-05-29T23:11:53Z) - Climate Change from Large Language Models [7.190384101545232]
気候変動は重大な問題を引き起こし、広範囲の理解と低炭素のライフスタイルの認識を必要としている。
大規模言語モデル(LLM)はこの危機に対処するための強力なツールを提供する。
本稿では,気候危機知識を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T09:26:46Z) - Arabic Mini-ClimateGPT : A Climate Change and Sustainability Tailored
Arabic LLM [77.17254959695218]
ChatGPTやBardのような大規模言語モデル(LLM)は、優れた会話能力を示し、幅広いNLPタスクに優れています。
我々は,オープンソースのLLM上に構築され,アラビア語データセットClima500-Instructの対話型命令チューニングに特化して微調整された軽量のアラビア語ミニクリメートGPTを提案する。
本モデルは,ChatGPTによる評価において,88.3%の症例において,ベースラインLLMを上回った。
論文 参考訳(メタデータ) (2023-12-14T22:04:07Z) - ClimateX: Do LLMs Accurately Assess Human Expert Confidence in Climate
Statements? [0.0]
気候ステートメントにおけるエキスパート信頼度(Expert Confidence in Climate Statements, ClimateX)データセットは,8094気候ステートメントからなる,新規でキュレートされた専門家ラベル付きデータセットである。
このデータセットを用いて,近年のLarge Language Models (LLMs) は,気候関連文における人間の専門家の信頼度を分類できることを示す。
全体として、モデルは、低信頼と中自信のステートメントに一貫性があり、重要な自信を示します。
論文 参考訳(メタデータ) (2023-11-28T10:26:57Z) - Assessing Large Language Models on Climate Information [5.034118180129635]
本稿では,Large Language Models (LLMs) を評価するための,科学コミュニケーション研究を基盤とした総合的な評価フレームワークを提案する。
本フレームワークは,8次元と30の課題にまたがるLLM世代を詳細に解析し,提示応答と妥当性の両方を強調した。
スケーラブルな監視のための新しいプロトコルを導入し、AIアシストと関連する教育のレーダに依存します。
論文 参考訳(メタデータ) (2023-10-04T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。