論文の概要: Think First, Assign Next (ThiFAN-VQA): A Two-stage Chain-of-Thought Framework for Post-Disaster Damage Assessment
- arxiv url: http://arxiv.org/abs/2511.19557v1
- Date: Mon, 24 Nov 2025 14:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.094857
- Title: Think First, Assign Next (ThiFAN-VQA): A Two-stage Chain-of-Thought Framework for Post-Disaster Damage Assessment
- Title(参考訳): ThiFAN-VQA : 災害後の被害評価のための2段階のチェーン・オブ・ソート・フレームワーク
- Authors: Ehsan Karimi, Nhut Le, Maryam Rahnemoonfar,
- Abstract要約: 災害時における視覚的質問応答(VQA)のための2段階推論に基づくフレームワークであるThiFAN-VQAを提案する。
カスタム情報検索システム、ドメイン固有のプロンプト、推論誘導型回答選択を統合することで、ThiFAN-VQAはゼロショットと教師付きメソッドのギャップを埋める。
FloodNetとRescueNet-VQAの実験は、洪水やハリケーンに影響を受けた地域のUAVベースのデータセットで、ThiFAN-VQAがより優れた精度、解釈可能性、適応性を実現することを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Timely and accurate assessment of damages following natural disasters is essential for effective emergency response and recovery. Recent AI-based frameworks have been developed to analyze large volumes of aerial imagery collected by Unmanned Aerial Vehicles, providing actionable insights rapidly. However, creating and annotating data for training these models is costly and time-consuming, resulting in datasets that are limited in size and diversity. Furthermore, most existing approaches rely on traditional classification-based frameworks with fixed answer spaces, restricting their ability to provide new information without additional data collection or model retraining. Using pre-trained generative models built on in-context learning (ICL) allows for flexible and open-ended answer spaces. However, these models often generate hallucinated outputs or produce generic responses that lack domain-specific relevance. To address these limitations, we propose ThiFAN-VQA, a two-stage reasoning-based framework for visual question answering (VQA) in disaster scenarios. ThiFAN-VQA first generates structured reasoning traces using chain-of-thought (CoT) prompting and ICL to enable interpretable reasoning under limited supervision. A subsequent answer selection module evaluates the generated responses and assigns the most coherent and contextually accurate answer, effectively improve the model performance. By integrating a custom information retrieval system, domain-specific prompting, and reasoning-guided answer selection, ThiFAN-VQA bridges the gap between zero-shot and supervised methods, combining flexibility with consistency. Experiments on FloodNet and RescueNet-VQA, UAV-based datasets from flood- and hurricane-affected regions, demonstrate that ThiFAN-VQA achieves superior accuracy, interpretability, and adaptability for real-world post-disaster damage assessment tasks.
- Abstract(参考訳): 自然災害後の被害のタイムリーかつ正確な評価は、効果的な緊急対応と回復に不可欠である。
最近のAIベースのフレームワークは、無人航空機が収集した大量の空中画像を分析するために開発されており、迅速に行動可能な洞察を提供する。
しかしながら、これらのモデルをトレーニングするためのデータの作成とアノテートには費用がかかり、時間を要するため、サイズや多様性が制限されるデータセットが生成される。
さらに、既存のほとんどのアプローチは、固定された回答空間を持つ従来の分類ベースのフレームワークに依存しており、追加のデータ収集やモデル再トレーニングなしに新しい情報を提供する能力を制限する。
インコンテキスト学習(ICL)上に構築された事前訓練された生成モデルを使用することで、柔軟でオープンな回答空間が可能になる。
しかし、これらのモデルはしばしば幻覚出力を生成したり、ドメイン固有の関連性を持たない一般的な応答を生成する。
このような制約に対処するために,災害シナリオにおける視覚的質問応答(VQA)のための2段階推論ベースのフレームワークであるThiFAN-VQAを提案する。
ThiFAN-VQAはまず、チェーン・オブ・ソート(CoT)プロンプトとICLを用いて構造化推論トレースを生成し、限られた監督下で解釈可能な推論を可能にする。
その後の回答選択モジュールは、生成された応答を評価し、最も一貫性があり、文脈的に正確な回答を割り当て、モデル性能を効果的に向上させる。
ThiFAN-VQAは、カスタム情報検索システム、ドメイン固有のプロンプト、推論誘導型回答選択を統合することで、ゼロショットと教師付きメソッドのギャップを橋渡しし、柔軟性と一貫性を結合する。
FloodNetとRescueNet-VQAの実験は、洪水やハリケーンに影響を受けた地域のUAVベースのデータセットであり、ThiFAN-VQAが実際の災害後の被害評価タスクに対して優れた精度、解釈可能性、適応性を達成することを実証している。
関連論文リスト
- Sparse Reasoning is Enough: Biological-Inspired Framework for Video Anomaly Detection with Large Pre-trained Models [36.38859440184592]
ビデオ異常検出(VAD)は、セキュリティ監視、自律運転、産業監視といった現実世界のアプリケーションにおいて重要な役割を果たす。
大規模事前学習モデルの最近の進歩は、豊富な事前知識と一般的な推論能力を活用することにより、トレーニング不要なVADの新たな機会を開いた。
VADシステムで強力な事前学習モデルを使用する場合、高密度推論は本当に必要か?
本稿では,人間の神経系の二重反射と意識経路にインスパイアされた新しいフレームワークであるReCoVADを提案する。
論文 参考訳(メタデータ) (2025-11-21T09:50:21Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - STRATA-TS: Selective Knowledge Transfer for Urban Time Series Forecasting with Retrieval-Guided Reasoning [27.775793400546345]
STRATA-TSは、ドメイン適応検索と推論可能な大規模モデルを組み合わせることで、不足するデータレシエーションの予測を改善するフレームワークである。
効率的な配置を実現するため, 教師付き微調整により, 推論過程をコンパクトなオープンモデルに蒸留する。
シンガポール、ノッティンガム、グラスゴーの3つのパーキングアベイラビリティーデータセットの実験では、STRATA-TSは強い予測と転送ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-26T03:18:53Z) - ZeShot-VQA: Zero-Shot Visual Question Answering Framework with Answer Mapping for Natural Disaster Damage Assessment [0.0]
最近発表されたモデルは、オープンエンドの質問に答える能力を持っていない。
ZeShot-VQAは、トレーニング手順中に見られなかった回答を処理し、生成することができる。
論文 参考訳(メタデータ) (2025-05-30T21:15:11Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Retrieval-guided Counterfactual Generation for QA [5.434621727606356]
質問応答のための偽物作成の課題に焦点をあてる。
本研究では,逆実効評価とトレーニングデータを作成するRetrieve-Generate-Filter手法を開発した。
RGFデータは局所摂動に対するモデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-14T17:56:37Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。