Fugu-MT 論文翻訳(概要): Judging It, Washing It: Scoring and Greenwashing Corporate Climate Disclosures using Large Language Models

論文の概要: Judging It, Washing It: Scoring and Greenwashing Corporate Climate Disclosures using Large Language Models

arxiv url: http://arxiv.org/abs/2502.15094v1
Date: Thu, 20 Feb 2025 23:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.012315
Title: Judging It, Washing It: Scoring and Greenwashing Corporate Climate Disclosures using Large Language Models
Title（参考訳）: 判断し、洗う:大規模言語モデルを用いたコーポレート・コーポレート・気候情報開示
Authors: Marianne Chuang, Gabriel Chuang, Cheryl Chuang, John Chuang,
Abstract要約: 本研究では, LLM-as-a-Judge(LLMJ)手法を用いて, 排出削減目標および進捗状況の企業からの報告を評価する。精度と長さの制約を考慮した応答をグリーンウォッシュするよう促されたLLMの挙動を探索する。 2つのLCMJスコアリングシステム(数値評価とペア比較)がハイパフォーマンスな企業と他社を区別するのに有効であることがわかった。
参考スコア（独自算出の注目度）: 2.7898966850590625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the use of large language models (LLMs) to both evaluate and greenwash corporate climate disclosures. First, we investigate the use of the LLM-as-a-Judge (LLMJ) methodology for scoring company-submitted reports on emissions reduction targets and progress. Second, we probe the behavior of an LLM when it is prompted to greenwash a response subject to accuracy and length constraints. Finally, we test the robustness of the LLMJ methodology against responses that may be greenwashed using an LLM. We find that two LLMJ scoring systems, numerical rating and pairwise comparison, are effective in distinguishing high-performing companies from others, with the pairwise comparison system showing greater robustness against LLM-greenwashed responses.
Abstract（参考訳）: 大規模言語モデル (LLMs) を用いて, 企業における環境情報公開の評価と緑化について検討した。まず, LLM-as-a-Judge(LLMJ)手法を用いて, 排出削減目標および進捗状況の企業からの報告を評価する。第2に,LLMが精度と長さの制約を受ける応答をグリーン洗うように促された場合の挙動を探索する。最後に LLMJ 手法の強靭性を LLM を用いて緑洗できる応答に対して検証する。 2つのLLMJスコアリングシステム(数値評価とペアワイズ比較)がハイパフォーマンスな企業と他社を区別するのに有効であることが判明した。

関連論文リスト

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation [21.229539297323488]
大きな言語モデル(LLM)は多くのタスクで優れていますが、複数の有効な応答が存在するあいまいなシナリオに苦労しています。小型言語モデル (SLM) はそのようなシナリオにおいて堅牢性を示すが、誤解を招くことや敵対的な入力に影響を受けやすい。本稿では,SLM と LLM を適応重み付けにより統合する SLIDE (Small and Large Integrated for Dialogue Evaluation) を提案する。
論文参考訳（メタデータ） (2025-06-04T23:41:31Z)
Towards Contamination Resistant Benchmarks [0.6906005491572401]
大規模言語モデル(LLM)を適切に評価することは、その可能性を理解し、安全性などの懸念に対処するために重要である。汚染は評価の信頼性を損なう重要な問題です本稿では, カエサル暗号に基づくベンチマーク(例えば, シフトが 1 のとき "ab" から "bc" など)を提案する。
論文参考訳（メタデータ） (2025-05-13T09:35:40Z)
The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation [73.16564415490113]
Retrieval-Augmented Generation (RAG)は、外部の知識ソースから関連文書を取得することにより、Large Language Models (LLM)を強化する。本稿では,小規模LLMにおいてRAGが導入した公平性問題を軽減するために,FairFTとFairFilterの2つのアプローチを提案する。
論文参考訳（メタデータ） (2025-04-11T10:17:10Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。しかし、LPMには、GPT-4やQwen2.5-72Bの語彙パラフレージングとの戦いに見られるような制限がある。
論文参考訳（メタデータ） (2024-03-08T00:19:24Z)
Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文参考訳（メタデータ） (2024-02-20T08:41:23Z)
Measuring Moral Inconsistencies in Large Language Models [16.47371312298185]
大言語モデル(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。現状のLLMでさえ、その世代では非常に不整合であり、信頼性に疑問を呈している。本稿では,SGE (Semantic Graph Entropy) と呼ばれる新たな情報理論尺度を提案する。
論文参考訳（メタデータ） (2024-01-26T18:05:47Z)
Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文参考訳（メタデータ） (2023-11-15T18:56:23Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。