論文の概要: PathCoT: Chain-of-Thought Prompting for Zero-shot Pathology Visual Reasoning
- arxiv url: http://arxiv.org/abs/2507.01029v1
- Date: Wed, 18 Jun 2025 09:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.422359
- Title: PathCoT: Chain-of-Thought Prompting for Zero-shot Pathology Visual Reasoning
- Title(参考訳): PathCoT: ゼロショット画像推論のためのチェーン・オブ・サート・プロンプト
- Authors: Junjie Zhou, Yingli Zuo, Shichang Feng, Peng Wan, Qi Zhu, Daoqiang Zhang, Wei Shao,
- Abstract要約: 視覚的推論タスクのための新しいゼロショット・チェーン・オブ・シークレット・プロンプト手法であるPathCoTを提案する。
PathCoTはMLLMの事前の知識をガイドし、画像の総合的な分析とドメイン固有の知識を提供する。
PathMMUデータセットの実験結果から,本手法が病態の視覚的理解と推論に与える影響が示された。
- 参考スコア(独自算出の注目度): 20.767097964324172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of generative artificial intelligence and instruction tuning techniques, multimodal large language models (MLLMs) have made impressive progress on general reasoning tasks. Benefiting from the chain-of-thought (CoT) methodology, MLLMs can solve the visual reasoning problem step-by-step. However, existing MLLMs still face significant challenges when applied to pathology visual reasoning tasks: (1) LLMs often underperforms because they lack domain-specific information, which can lead to model hallucinations. (2) The additional reasoning steps in CoT may introduce errors, leading to the divergence of answers. To address these limitations, we propose PathCoT, a novel zero-shot CoT prompting method which integrates the pathology expert-knowledge into the reasoning process of MLLMs and incorporates self-evaluation to mitigate divergence of answers. Specifically, PathCoT guides the MLLM with prior knowledge to perform as pathology experts, and provides comprehensive analysis of the image with their domain-specific knowledge. By incorporating the experts' knowledge, PathCoT can obtain the answers with CoT reasoning. Furthermore, PathCoT incorporates a self-evaluation step that assesses both the results generated directly by MLLMs and those derived through CoT, finally determining the reliable answer. The experimental results on the PathMMU dataset demonstrate the effectiveness of our method on pathology visual understanding and reasoning.
- Abstract(参考訳): 生成人工知能と命令チューニング技術の発展により、多モーダル大規模言語モデル(MLLM)は一般的な推論タスクにおいて顕著な進歩を遂げた。
MLLMは、チェーン・オブ・思想(CoT)方法論から恩恵を受け、視覚的推論問題を段階的に解決することができる。
しかしながら、既存のMLLMは、病理的視覚的推論タスクに適用する場合、重要な課題に直面している: 1) LLMはドメイン固有の情報がないため、しばしば性能が低下し、モデル幻覚につながる。
2)CoTにおける追加の推論ステップは、エラーを発生させ、回答のばらつきにつながる可能性がある。
これらの制約に対処するため、我々は、MLLMの推論プロセスに病理専門家知識を統合する新しいゼロショットCoTプロンプト手法であるPathCoTを提案し、回答のばらつきを軽減するために自己評価を組み込む。
具体的には、PathCoTはMLLMに事前に知識を与えて病理の専門家として行動させ、その領域固有の知識で画像の包括的な分析を提供する。
専門家の知識を取り入れることで、PathCoTはCoT推論の回答を得ることができる。
さらに、PathCoTは自己評価ステップを導入し、MLLMによって直接生成された結果とCoTによって生成された結果の両方を評価し、最終的に信頼性の高い回答を決定する。
PathMMUデータセットの実験結果から,本手法が病態の視覚的理解と推論に与える影響が示された。
関連論文リスト
- Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs [23.50838763761289]
我々は、厳密で効果的な医療連鎖データを生成するために、Mentor-Intern Collaborative Search (MICS)を提案する。
推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。
最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Reliable Reasoning Path: Distilling Effective Guidance for LLM Reasoning with Knowledge Graphs [14.60537408321632]
大規模言語モデル(LLM)は、背景知識の不足のため、知識集約的なタスクに苦しむことが多い。
知識グラフをマイニングするためのRCPフレームワークを提案する。
また、その意義に応じて推論経路を評価し、洗練する再考モジュールも導入する。
論文 参考訳(メタデータ) (2025-06-12T09:10:32Z) - Chain of Methodologies: Scaling Test Time Computation without Training [77.85633949575046]
大規模言語モデル(LLM)は、トレーニングデータに対する詳細な洞察が不十分なため、複雑な推論タスクに苦しむことが多い。
本稿では,人間の方法論的洞察を統合することで構造的思考を強化するCoM(Chain of the CoM)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-06-08T03:46:50Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。