論文の概要: Evaluation of the Automated Labeling Method for Taxonomic Nomenclature Through Prompt-Optimized Large Language Model
- arxiv url: http://arxiv.org/abs/2503.10662v1
- Date: Sat, 08 Mar 2025 23:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-23 06:38:25.504298
- Title: Evaluation of the Automated Labeling Method for Taxonomic Nomenclature Through Prompt-Optimized Large Language Model
- Title(参考訳): Prompt-Optimized Large Language Modelによる分類命名の自動ラベリング手法の評価
- Authors: Keito Inoshita, Kota Nojiri, Haruto Sugeno, Takumi Taga,
- Abstract要約: 大型言語モデル(LLM)を用いた自動種名ラベル付けの実現可能性について検討した。
その結果, LLMによる分類は, 形態学, 地理学, 人文学のカテゴリーにおいて高い精度を達成できたことが示唆された。
今後の研究は、最適化された数ショット学習と検索強化生成技術による精度の向上に焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Scientific names of organisms consist of a genus name and a species epithet, with the latter often reflecting aspects such as morphology, ecology, distribution, and cultural background. Traditionally, researchers have manually labeled species names by carefully examining taxonomic descriptions, a process that demands substantial time and effort when dealing with large datasets. This study evaluates the feasibility of automatic species name labeling using large language model (LLM) by leveraging their text classification and semantic extraction capabilities. Using the spider name dataset compiled by Mammola et al., we compared LLM-based labeling results-enhanced through prompt engineering-with human annotations. The results indicate that LLM-based classification achieved high accuracy in Morphology, Geography, and People categories. However, classification accuracy was lower in Ecology & Behavior and Modern & Past Culture, revealing challenges in interpreting animal behavior and cultural contexts. Future research will focus on improving accuracy through optimized few-shot learning and retrieval-augmented generation techniques, while also expanding the applicability of LLM-based labeling to diverse biological taxa.
- Abstract(参考訳): 生物の科学的名称は属名と種エピテットからなり、後者は形態学、生態学、分布、文化的背景などの側面を反映していることが多い。
伝統的に研究者は、大規模なデータセットを扱う際にかなりの時間と労力を要する分類学的記述を慎重に調べることで、種名を手動でラベル付けしてきた。
本研究では,大言語モデル(LLM)を用いた自動種名ラベリングの実現可能性について,テキスト分類と意味抽出機能を活用して検討した。
Mammolaらによってコンパイルされたクモ名データセットを用いて,人間のアノテーションと迅速な工学的手法によるラベル付けの結果を比較した。
その結果, LLMによる分類は, 形態学, 地理学, 人文学のカテゴリーにおいて高い精度を達成できたことが示唆された。
しかし、生態・行動・近代・過去の文化では分類精度が低下し、動物行動や文化の文脈を解釈する上での課題が明らかになった。
今後の研究は、最適化された数ショット学習と検索強化生成技術による精度の向上に焦点をあてるとともに、LLMに基づくラベルの多様な生物学的分類への適用性も拡大する予定である。
関連論文リスト
- Can Large Language Models Serve as Effective Classifiers for Hierarchical Multi-Label Classification of Scientific Documents at Industrial Scale? [1.0562108865927007]
大規模言語モデル(LLM)は、多ラベル分類のような複雑なタスクにおいて大きな可能性を証明している。
これらの課題を克服するために,LLMの強みと高密度検索手法を組み合わせる手法を提案する。
複数の分野にまたがる大規模プリプリントリポジトリであるSSRNにおいて,本手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-12-06T15:51:22Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Annotation Guidelines-Based Knowledge Augmentation: Towards Enhancing Large Language Models for Educational Text Classification [11.69740323250258]
大規模言語モデル(LLM)を改善するためのガイドラインベース知識拡張(AGKA)アプローチを提案する。
AGKAはGPT 4.0を使用して、アノテーションガイドラインからラベル定義の知識を取得し、ランダムアンダーサンプラーを適用していくつかの典型的な例を選択する。
実験の結果、AGKAは非微調整LDM(特にGPT 4.0とLlama 3 70B)を増強できることが示された。
論文 参考訳(メタデータ) (2024-06-03T03:09:01Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Understanding Survey Paper Taxonomy about Large Language Models via
Graph Representation Learning [2.88268082568407]
我々は,調査論文を分類学に自動的に割り当てる手法を開発した。
本研究は,共分類グラフ上でのグラフ構造情報の活用が言語モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-16T02:21:59Z) - TEPI: Taxonomy-aware Embedding and Pseudo-Imaging for Scarcely-labeled
Zero-shot Genome Classification [0.0]
種の遺伝コードまたはゲノムは、貴重な進化的、生物学的、系統学的情報をコードする。
従来のバイオインフォマティクスツールは顕著な進歩を遂げているが、スケーラビリティに欠け、計算コストも高い。
TEPI, 分類認識型埋め込み, Pseudo-Imaging を用いたゼロショット学習によりこの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:16:28Z) - A Saliency-based Clustering Framework for Identifying Aberrant
Predictions [49.1574468325115]
本稿では, 異常予測の概念を導入し, 分類誤差の性質が頻度と同じくらい重要であることを強調した。
本稿では,誤分類率の低減と異常予測の識別を両立する,新しい,効率的なトレーニング手法を提案する。
本手法を獣医学の分野である獣医学の分野に応用し, 被曝率は高いが, 人体医学に比べて広く研究されていない。
論文 参考訳(メタデータ) (2023-11-11T01:53:59Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Knowledge Elicitation using Deep Metric Learning and Psychometric
Testing [15.989397781243225]
画像やビデオなどの高次元データを扱う専門家から,効率的な階層的知識の抽出方法を提案する。
開発されたモデルは、距離が意味論的に意味のある距離空間に高次元データを埋め込み、データは階層構造で整理することができる。
論文 参考訳(メタデータ) (2020-04-14T08:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。