論文の概要: Evaluating Large Language Models for IUCN Red List Species Information
- arxiv url: http://arxiv.org/abs/2510.02830v1
- Date: Fri, 03 Oct 2025 09:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.330312
- Title: Evaluating Large Language Models for IUCN Red List Species Information
- Title(参考訳): IUCNレッドリストの種別情報に対する大規模言語モデルの評価
- Authors: Shinya Uryu,
- Abstract要約: 大きな言語モデル(LLM)は、生物多様性危機に対処するために、保護において急速に採用されている。
本研究は、4つのコアIUCNレッドリストアセスメントコンポーネントにわたる21,955種の主要な5つのモデルを体系的に検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are rapidly being adopted in conservation to address the biodiversity crisis, yet their reliability for species evaluation is uncertain. This study systematically validates five leading models on 21,955 species across four core IUCN Red List assessment components: taxonomy, conservation status, distribution, and threats. A critical paradox was revealed: models excelled at taxonomic classification (94.9%) but consistently failed at conservation reasoning (27.2% for status assessment). This knowledge-reasoning gap, evident across all models, suggests inherent architectural constraints, not just data limitations. Furthermore, models exhibited systematic biases favoring charismatic vertebrates, potentially amplifying existing conservation inequities. These findings delineate clear boundaries for responsible LLM deployment: they are powerful tools for information retrieval but require human oversight for judgment-based decisions. A hybrid approach is recommended, where LLMs augment expert capacity while human experts retain sole authority over risk assessment and policy.
- Abstract(参考訳): 大言語モデル(LLM)は生物多様性危機に対処するために急速に採用されているが、種評価の信頼性は不確実である。
本研究は, 分類学, 保存状態, 分布, 脅威の4つのコアIUCNレッドリスト評価成分を対象とし, 21,955種の主要モデルを系統的に検証した。
決定的なパラドックスが明らかにされた: 分類学的分類(94.9%)で優れているが、保存的推論(27.2%)で一貫して失敗した。
この知識と推論のギャップは、すべてのモデルで明らかであり、データ制限だけでなく、固有のアーキテクチャ上の制約を示唆している。
さらに、モデルはカリスマ性脊椎動物を好む体系的なバイアスを示し、既存の保存的不平等を増幅する可能性がある。
これらの知見は、情報検索のための強力なツールであるが、判断に基づく決定には人間の監督が必要である。
LLMは専門家の能力を高め、一方で人間の専門家はリスク評価と政策に関する唯一の権威を維持している。
関連論文リスト
- Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Modelling Species Distributions with Deep Learning to Predict Plant
Extinction Risk and Assess Climate Change Impacts [2.874893537471256]
種別IUCNの分類法について検討した。
本手法は, フレキシブルSDM機能に依存しながら, 最先端の分類性能に適合する。
絶滅危惧種の比率は世界中で増加しており、アフリカ、アジア、南米で臨界率が高い。
論文 参考訳(メタデータ) (2024-01-10T15:24:27Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。