論文の概要: Pest-Thinker: Learning to Think and Reason like Entomologists via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.06121v1
- Date: Thu, 07 May 2026 12:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.767751
- Title: Pest-Thinker: Learning to Think and Reason like Entomologists via Reinforcement Learning
- Title(参考訳): Pest-Thinker: 強化学習を通して、昆虫学者のような思考と推論を学ぶ
- Authors: Xueheng Li, Yu Wang, Tao Hu, Ji Huang, Ke Cao, Qize Yang, Rui Li, Jie Zhang, Chengjun Xie,
- Abstract要約: Pest-Thinkerは知識駆動型強化学習フレームワークで、MLLMが微細な害虫の形態を解析できるようにする。
Pest-Thinkerは、知的農薬分析のエキスパートレベルの視覚的推論への一歩として、ドメイン内とドメイン外の両方のモルフォロジー的理解を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 15.053412132295799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pest-induced crop losses pose a major threat to global food security and sustainable agricultural development. While recent advances in Multimodal Large Language Models (MLLMs) have shown strong potential for visual understanding and smart agriculture, their direct application to pest recognition remains limited due to the domain's unique challenges such as high inter-species complexity, intra-species variability, and the scarcity of expert-annotated data. In this work, we introduce Pest-Thinker, a knowledge-driven reinforcement learning (RL) framework that enables MLLMs to reason over fine-grained pest morphology. We first construct two high-definition pest benchmarks, QFSD and AgriInsect, comprising diverse species and expert-annotated morphological traits. Leveraging these datasets, we synthesize Chain-of-Thought (CoT) reasoning trajectories to facilitate structured learning of pest-specific visual cues through Supervised Fine-Tuning (SFT). Subsequently, we employ Group Relative Policy Optimization (GRPO) with a novel feature reward that guides the model to focus on observable morphological evidence, assessed by an LLM-as-a-Judge strategy. Extensive experiments demonstrate that Pest-Thinker substantially improves both in-domain and out-of-domain morphological understanding, marking a step toward expert-level visual reasoning for intelligent agricultural pest analysis. The datasets and source code are available upon acceptance.
- Abstract(参考訳): 害虫による作物の損失は、世界の食料安全保障と持続可能な農業開発に大きな脅威をもたらす。
近年のMLLM(Multimodal Large Language Models)の進歩は、視覚的理解とスマート農業の可能性を強く示している一方で、種間複雑性、種内変動性、専門家による注釈データ不足といったドメイン固有の課題により、害虫認識への直接的な適用は制限されている。
本研究は,MLLMが詳細な害虫形態を解析できる知識駆動強化学習(RL)フレームワークであるPest-Thinkerを紹介する。
まず,QFSDとAgriInsectという2つの高分解能害虫ベンチマークを構築し,多種多様な形態的特徴を同定した。
これらのデータセットを活用することで、我々は、スーパービジョンファインチューニング(SFT)を通して、害虫特有の視覚的手がかりの構造化学習を容易にするために、CoT(Chain-of-Thought)推論軌道を合成する。
次に,LLM-as-a-Judge戦略によって評価された,観測可能な形態的証拠に焦点を合わせるための,新たな特徴報酬を備えたグループ相対政策最適化(GRPO)を採用する。
広範囲にわたる実験により、Pest-Thinkerは、ドメイン内とドメイン外の両方のモルフォロジーの理解を大幅に改善し、知的農薬分析のエキスパートレベルの視覚的推論への一歩を踏み出した。
データセットとソースコードは受理時に入手できる。
関連論文リスト
- PestVL-Net: Enabling Multimodal Pest Learning via Fine-grained Vision-Language Interaction [11.677135930362446]
既存のテクニックは、害虫の重要な視覚的および高レベルの意味的特徴をきめ細かな方法で効果的にモデル化するのに苦労している。
PestVL-Netという新しい視覚言語フレームワークを2つの多種性害虫データセットで提案し,より微細な害虫学習を容易にする。
これらの相補的な視覚的およびテキスト的表現の深い融合は、きめ細かいマルチモーダルな害虫学習を可能にする。
論文 参考訳(メタデータ) (2026-04-19T06:17:51Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Domain Adaptation for Big Data in Agricultural Image Analysis: A Comprehensive Review [31.64406217970439]
ドメイン適応(DA)技術は、農業画像解析におけるクロスドメイン転送性を改善するための課題に対処することができる。
DAは限られたラベル付きデータ、不十分なモデル適応性、およびフィールド環境における動的変化の場合に有望な解であると考えられている。
近年の農業画像におけるDAの最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-06-06T10:52:10Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification [12.923336716880506]
画像キャプションと検索拡張生成(RAG)を大規模言語モデル(LLM)と統合し,生物多様性モニタリングを強化する。
我々の発見は、生物多様性保護イニシアチブをサポートする現代のビジョン言語AIパイプラインの可能性を強調した。
論文 参考訳(メタデータ) (2025-03-13T21:18:10Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - InsectMamba: Insect Pest Classification with State Space Model [8.470757741028661]
InsectMambaは、ステートスペースモデル(SSM)、畳み込みニューラルネットワーク(CNN)、マルチヘッド自己認識機構(MSA)、マルチレイヤパーセプトロン(MLP)をMix-SSMブロックに統合する新しいアプローチである。
5種類の害虫分類データセットの強い競争相手に対して評価された。
論文 参考訳(メタデータ) (2024-04-04T17:34:21Z) - Explainable AI in Grassland Monitoring: Enhancing Model Performance and
Domain Adaptability [0.6131022957085438]
草原は高い生物多様性と複数の生態系サービスを提供する能力で知られている。
指標植物の自動識別の課題は、大規模な草地モニタリングの鍵となる障害である。
本稿では,移動学習と草地モニタリングへのXAIアプローチを中心に,後者の2つの課題を考察する。
論文 参考訳(メタデータ) (2023-12-13T10:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。