論文の概要: LLM Benchmark-User Need Misalignment for Climate Change
- arxiv url: http://arxiv.org/abs/2603.26106v1
- Date: Fri, 27 Mar 2026 06:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.37513
- Title: LLM Benchmark-User Need Misalignment for Climate Change
- Title(参考訳): LLMベンチマークによる気候変動対策
- Authors: Oucheng Liu, Lexing Xie, Jing Jiang,
- Abstract要約: 大規模言語モデル (LLMs) は、気候の知識にアクセスするためのインターフェースとしてますます機能している。
本稿では,人間とAIの異なる知識を抽出し,行動の探索とプロビジョニングを行うプロアクティブな知識行動フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.556062684715515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Climate change is a major socio-scientific issue shapes public decision-making and policy discussions. As large language models (LLMs) increasingly serve as an interface for accessing climate knowledge, whether existing benchmarks reflect user needs is critical for evaluating LLM in real-world settings. We propose a Proactive Knowledge Behaviors Framework that captures the different human-human and human-AI knowledge seeking and provision behaviors. We further develop a Topic-Intent-Form taxonomy and apply it to analyze climate-related data representing different knowledge behaviors. Our results reveal a substantial mismatch between current benchmarks and real-world user needs, while knowledge interaction patterns between humans and LLMs closely resemble those in human-human interactions. These findings provide actionable guidance for benchmark design, RAG system development, and LLM training. Code is available at https://github.com/OuchengLiu/LLM-Misalign-Climate-Change.
- Abstract(参考訳): 気候変動は社会科学的問題であり、公共の意思決定や政策に関する議論を形作る。
大規模言語モデル(LLM)が気候の知識にアクセスするためのインターフェースとして機能するにつれて、既存のベンチマークがユーザのニーズを反映しているかは、現実の環境でLLMを評価する上で重要である。
本稿では,人間とAIの異なる知識を抽出し,行動の探索とプロビジョニングを行うプロアクティブな知識行動フレームワークを提案する。
我々はさらにトピック・インテント・フォームの分類法を開発し、異なる知識行動を表す気候関連データの解析に応用する。
その結果,人間とLLMの知識相互作用パターンは人間と人間のインタラクションによく似ているのに対し,現在のベンチマークと実世界のユーザニーズとの間にはかなりのミスマッチがあることが判明した。
これらの知見は、ベンチマーク設計、RAGシステム開発、LLMトレーニングのための実用的なガイダンスを提供する。
コードはhttps://github.com/OuchengLiu/LLM-Misalign-Climate-Changeで入手できる。
関連論文リスト
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - AlignUSER: Human-Aligned LLM Agents via World Models for Recommender System Evaluation [0.7031557790463293]
人間のインタラクションから世界モデル駆動エージェントを学習するフレームワークであるAlignを紹介する。
実証に関する反事実的軌跡を生成し, LLMに人間の選択と判断を比較し, 準最適行動を特定し, 教訓を抽出するよう促す。
論文 参考訳(メタデータ) (2026-01-02T03:01:33Z) - ClimateChat: Designing Data and Methods for Instruction Tuning LLMs to Answer Climate Change Queries [14.659144306119357]
本研究では,気候変動のための指導データ構築の自動化手法を提案する。
我々は,オープンソースのLCMを微調整するために,ClimateChat-Corpusという気候変動指導データセットを構築した。
その結果,ClimateChatは気候変動に対する質問・回答タスクのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-06-12T08:43:38Z) - CliME: Evaluating Multimodal Climate Discourse on Social Media and the Climate Alignment Quotient (CAQ) [14.065907685322097]
CliMEは、TwitterとRedditの2579の投稿からなる、同種のマルチモーダルデータセットである。
このベンチマークはユーモラスなミームと懐疑的な投稿の多様なコレクションを特徴とし、これらのフォーマットが複雑な問題を、世論や政策に関する議論を形作るような、バイラルな物語にどのように蒸留するかを捉えている。
本稿では,5つの異なる次元(Articulation, Evidence, Resonance, transition, specificity)からなる新しい尺度であるClimate Alignment Quotient(CAQ)を紹介する。
以上の結果から,ほとんどのLCMは批判と正義において比較的良好に機能するが,アクティビリティーの軸では常に性能が劣っていることが示唆された。
論文 参考訳(メタデータ) (2025-04-04T20:01:00Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Assessing Large Language Models on Climate Information [5.034118180129635]
本稿では,Large Language Models (LLMs) を評価するための,科学コミュニケーション研究を基盤とした総合的な評価フレームワークを提案する。
本フレームワークは,8次元と30の課題にまたがるLLM世代を詳細に解析し,提示応答と妥当性の両方を強調した。
スケーラブルな監視のための新しいプロトコルを導入し、AIアシストと関連する教育のレーダに依存します。
論文 参考訳(メタデータ) (2023-10-04T16:09:48Z) - How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。
我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文 参考訳(メタデータ) (2023-06-09T11:31:50Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。