論文の概要: Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks
- arxiv url: http://arxiv.org/abs/2605.27595v1
- Date: Tue, 26 May 2026 19:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.473271
- Title: Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks
- Title(参考訳): 農業用マルチモーダルLLMにおける画像解釈と生成課題のハロシン化挙動
- Authors: Partho Ghose, Al Bashir, Prem Raj, Azlan Zahid,
- Abstract要約: 大規模言語モデル(LLM)は、農業用イメージングアプリケーションで急速に採用されている。
本研究では,画像からテキストへ,テキストから画像へという2つの相補的な方向の幻覚について検討する。
- 参考スコア(独自算出の注目度): 0.9624643581968987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being rapidly adopted in agricultural imaging applications, ranging from crop interpretation to synthetic field image generation. However, these models frequently exhibit hallucinations outputs that appear confident yet deviate from biological or environmental reality potentially leading to misinformed agronomic insights. This study investigates such hallucinations in two complementary directions: image-to-text, where LLMs interpret crop or field imagery to describe conditions such as biotic and abiotic stresses, and text-to-image, where models generate synthetic agricultural scenes based on descriptive prompts. We examine errors involving biological inconsistency, contextual inaccuracy, and agronomic implausibility, evaluating the outputs under domain-informed criteria across multiple imaging modalities. Our analysis identifies recurring hallucination patterns within both interpretive and generative tasks. In image interpretation, LLMs (e.g., Gemma, LLAVA, Qwen, and MiniCPM) achieved modest zero-shot accuracy (63 to 75 percent), whereas few-shot prompting improved performance up to 86.8 percent, exhibiting false detections and missed infections, indicating residual hallucination effects. In text-to-image tasks, advanced models such as GPT-5 and Gemini 2.5 Flash generate up to 91 percent biologically inconsistent scenes under relaxed prompt constraints, revealing fundamental weaknesses in current LLMs. This systematic assessment of visual reasoning and generation offers critical insights toward enhancing the reliability and trustworthiness of LLM-based agricultural imaging platforms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、作物の解釈から合成現場画像生成まで、農業用画像の分野で急速に採用されている。
しかしながら、これらのモデルはしばしば幻覚のアウトプットを示し、それは生物学的または環境的な現実から逸脱しているように見えるが、誤った農学的な洞察をもたらす可能性がある。
本研究では, LLMが作物や畑のイメージを解釈し, 生物ストレスや無生物ストレスなどの条件を記述した画像と, モデルが記述的プロンプトに基づいて合成農業シーンを生成するテキスト・トゥ・イメージの2つの相補的な方向の幻覚について検討した。
本研究では, 生物学的不整合, 文脈的不正確性, 農業的不合理性に関する誤りを考察し, 複数の画像モダリティにまたがる領域インフォームド基準下でのアウトプットの評価を行った。
本分析では, 解釈作業と生成作業の両方において, 繰り返し発生する幻覚パターンを同定する。
画像解釈では、LLM(例:Gemma、LLAVA、Qwen、MiniCPM)はわずかにゼロショットの精度(63~75%)を達成し、少数ショットは86.8%まで改善し、誤検出と感染の欠如を示し、幻覚効果が残っていた。
テキストから画像へのタスクでは、GPT-5やGemini 2.5 Flashのような高度なモデルは、緩和されたプロンプト制約の下で、生物学的に一貫性のないシーンを最大91%生成し、現在のLCMの根本的な弱点を明らかにした。
この視覚的推論と生成の体系的評価は、LLMベースの農業画像プラットフォームの信頼性と信頼性を高めるための重要な洞察を提供する。
関連論文リスト
- XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis [8.399688944263843]
このフレームワークは、実世界のデータ制約のある農業病モニタリングアプリケーションに有望なソリューションを提供する。
このモデルは高い精度、精度、リコール、F1スコアを連続的に達成し、様々な疾患の段階では92%を超えることがよくある。
論文 参考訳(メタデータ) (2026-03-03T13:29:35Z) - Rethinking Plant Disease Diagnosis: Bridging the Academic-Practical Gap with Vision Transformers and Zero-Shot Learning [2.3536628395905974]
注意に基づくアーキテクチャとゼロショット学習アプローチが、キュレートされた学術データセットと現実世界の農業環境とのギャップを埋めるかどうかを検討する。
CNN(Convolutional Neural Networks)、ビジョントランスフォーマー(Vision Transformers)、およびCLIP(Contrastive Language- Image Pre-training)ベースのゼロショットモデルである。
論文 参考訳(メタデータ) (2025-11-24T11:08:01Z) - Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities [3.1406146587437904]
大規模言語モデル(LLM)は、医療画像のタスクにますます応用されている。
これらのモデルは、しばしば幻覚を生じさせ、自信はあるが、誤ったアウトプットが臨床上の決定を誤解させる可能性がある。
本研究では、画像からテキストへの幻覚、X線、CT、MRIスキャンからの報告、およびテキストから画像への幻覚、そしてモデルが臨床的なプロンプトから医療画像を生成する2つの方向について検討する。
論文 参考訳(メタデータ) (2025-08-09T16:03:46Z) - A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。
既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文 参考訳(メタデータ) (2025-05-11T15:30:06Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [65.4610281589017]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。