論文の概要: Instruct-ICL: Instruction-Guided In-Context Learning for Post-Disaster Damage Assessment
- arxiv url: http://arxiv.org/abs/2605.11439v1
- Date: Tue, 12 May 2026 02:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.535833
- Title: Instruct-ICL: Instruction-Guided In-Context Learning for Post-Disaster Damage Assessment
- Title(参考訳): Instruct-ICL: Instruction-Guided In-Context Learning for Post-Disaster damage Assessment
- Authors: Armin Zarbaft, Ehsan Karimi, Nhut Le, Maryam Rahnemoonfar,
- Abstract要約: ポストディザスタアセスメントのためのタスク固有のトレーニングモデルは、しばしば時間がかかり、計算コストがかかる。
事前学習型マルチモーダル大言語モデル (MLLM) は、ディスアスター後の視覚的質問応答 (VQA) の代替として期待できるものとして登場した。
本稿では,事前学習型MLLMの信頼性を向上させるための構造的推論手法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid and accurate situational awareness is essential for effective response during natural disasters, where delays in analysis can significantly hinder decision-making. Training task-specific models for post-disaster assessment is often time-consuming and computationally expensive, making such approaches impractical in time-critical scenarios. Consequently, pretrained multimodal large language models (MLLMs) have emerged as a promising alternative for post-disaster visual question answering (VQA), a task that aims to answer structured questions about visual scenes by jointly reasoning over images and text. While these models demonstrate strong multimodal reasoning capabilities, their responses can be sensitive to prompt formulation, which can limit their reliability in real-world disaster assessment scenarios. In this paper, we investigate whether structured reasoning strategies can improve the reliability of pretrained MLLMs for post-disaster VQA. Specifically, we explore multiple prompting paradigms in which one MLLM is used to generate task-specific instructions that serve as Chain-of-Thought (CoT) guidance for a second MLLM. These instructions are incorporated during answer generation with varying degrees of in-context learning (ICL), enabling the model to leverage both explicit reasoning guidance and contextual examples. We conduct our evaluation on the FloodNet dataset and compare these approaches against a zero-shot baseline. Our results demonstrate that integrating instruction-driven CoT reasoning consistently improves answer accuracy.
- Abstract(参考訳): 自然災害時の効果的な対応には、迅速かつ正確な状況認識が不可欠であり、分析の遅れが意思決定を著しく妨げる可能性がある。
ポストディザスタアセスメントのためのタスク固有のモデルのトレーニングは、しばしば時間がかかり、計算コストがかかるため、そのようなアプローチは時間クリティカルなシナリオでは現実的ではない。
その結果,事前学習型マルチモーダル大言語モデル (MLLM) が,画像とテキストを共同で推論することで,視覚シーンに関する構造化された疑問に答えることを目的とした,ディスアスター後の視覚質問応答 (VQA) の代替案として登場した。
これらのモデルは強力なマルチモーダル推論能力を示すが、その応答は迅速な定式化に敏感であり、現実の災害評価シナリオにおける信頼性を制限することができる。
本稿では,事前学習型MLLMの信頼性を向上させるための構造的推論手法について検討する。
具体的には、第2のMLLMのためのChain-of-Thought(CoT)ガイダンスとして機能するタスク固有の命令を生成するために、1つのMLLMを使用する複数のプロンプトパラダイムについて検討する。
これらの命令は、文脈内学習(ICL)の度合いが異なる回答生成中に組み込まれ、明示的な推論指導と文脈例の両方を活用することができる。
我々はFloodNetデータセットの評価を行い、これらのアプローチをゼロショットベースラインと比較する。
この結果から,命令駆動型CoT推論の統合は解答精度を一貫して向上することが示された。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations [53.20772659095155]
本稿では、トレーニング時不完全観察において、より困難なIMLの設定に取り組む。
本稿では,この課題を条件付きシーケンス推論タスクとして再構成したLIMSSR(LLM-Driven Incomplete Multimodal Sequence-to-Score Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-05-01T06:11:42Z) - In-Context Autonomous Network Incident Response: An End-to-End Large Language Model Agent Approach [3.733830491643117]
我々は,大規模言語モデルの事前訓練されたセキュリティ知識とコンテキスト内学習を活用して,インシデント対応計画のためのエンドツーエンドのエージェントソリューションを作成することを提案する。
具体的には、認識、推論、計画、行動の4つの機能を1つの軽量LCM(14bモデル)に統合する。
我々のエージェントは、フロンティアLSMよりも最大で23%早く回復できる。
論文 参考訳(メタデータ) (2026-02-13T18:09:30Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Think First, Assign Next (ThiFAN-VQA): A Two-stage Chain-of-Thought Framework for Post-Disaster Damage Assessment [0.0]
災害時における視覚的質問応答(VQA)のための2段階推論に基づくフレームワークであるThiFAN-VQAを提案する。
カスタム情報検索システム、ドメイン固有のプロンプト、推論誘導型回答選択を統合することで、ThiFAN-VQAはゼロショットと教師付きメソッドのギャップを埋める。
FloodNetとRescueNet-VQAの実験は、洪水やハリケーンに影響を受けた地域のUAVベースのデータセットで、ThiFAN-VQAがより優れた精度、解釈可能性、適応性を実現することを実証している。
論文 参考訳(メタデータ) (2025-11-24T14:32:07Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。
LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。
人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文 参考訳(メタデータ) (2025-04-13T14:12:14Z) - Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models [0.0]
本稿では,新しい構造化推論手法であるAttentive Reasoning Queries (ARQs)を提案する。
ARQは、ドメイン特化推論ブループリントを通じて、大規模言語モデルにおける命令追跡を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-05T17:03:48Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。