論文の概要: Bridge Damage Cause Estimation Using Multiple Images Based on Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2302.09208v1
- Date: Sat, 18 Feb 2023 02:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:49:12.398883
- Title: Bridge Damage Cause Estimation Using Multiple Images Based on Visual
Question Answering
- Title(参考訳): 視覚的質問応答に基づく複数画像を用いた橋梁損傷原因推定
- Authors: Tatsuro Yamane and Pang-jo Chun and Ji Dang and Takayuki Okatani
- Abstract要約: SfM(Structure from Motion)を用いて画像位置を算出し,視覚質問応答(VQA)を用いて情報を取得することにより,損傷原因推定フレームワークを提案する。
VQAモデルは、データセット作成にブリッジ画像を使用し、その画像と質問に基づいて損傷またはメンバー名とその存在を出力する。
提案手法では,SfMを用いた周辺画像とVQAモデルの結果に基づいて,新たな質問をVQAモデルに入力することにより,損傷原因を絞り込む。
- 参考スコア(独自算出の注目度): 13.869227429939423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a bridge member damage cause estimation framework is proposed
by calculating the image position using Structure from Motion (SfM) and
acquiring its information via Visual Question Answering (VQA). For this, a VQA
model was developed that uses bridge images for dataset creation and outputs
the damage or member name and its existence based on the images and questions.
In the developed model, the correct answer rate for questions requiring the
member's name and the damage's name were 67.4% and 68.9%, respectively. The
correct answer rate for questions requiring a yes/no answer was 99.1%. Based on
the developed model, a damage cause estimation method was proposed. In the
proposed method, the damage causes are narrowed down by inputting new questions
to the VQA model, which are determined based on the surrounding images obtained
via SfM and the results of the VQA model. Subsequently, the proposed method was
then applied to an actual bridge and shown to be capable of determining damage
and estimating its cause. The proposed method could be used to prevent damage
causes from being overlooked, and practitioners could determine inspection
focus areas, which could contribute to the improvement of maintenance
techniques. In the future, it is expected to contribute to infrastructure
diagnosis automation.
- Abstract(参考訳): 本稿では,運動からの構造(sfm)を用いて画像位置を算出し,視覚質問応答(vqa)によりその情報を取得することで橋梁部材損傷原因推定手法を提案する。
このために、データセット作成にブリッジイメージを使用し、画像と質問に基づいて損傷やメンバー名とその存在を出力するVQAモデルを開発した。
開発したモデルでは、メンバー名と損害名を必要とする質問に対する正しい回答率は、それぞれ67.4%と68.9%であった。
yes/noの回答を必要とする質問に対する正答率は99.1%であった。
開発したモデルに基づいて,損傷原因推定法を提案した。
提案手法では,SfMを用いた周辺画像とVQAモデルの結果に基づいて,新たな質問をVQAモデルに入力することにより,損傷原因を絞り込む。
その後, 本手法を実際の橋梁に適用し, 損傷を判定し, 原因を推定できることを示した。
提案手法は, 損傷原因の見落とし防止に有効であり, 実践者は点検点数を決定することができ, 維持技術の改善に寄与する可能性がある。
将来的には,インフラストラクチャ診断の自動化に寄与することが期待される。
関連論文リスト
- VEglue: Testing Visual Entailment Systems via Object-Aligned Joint
Erasing [14.488700134624667]
VEシステムテストのためのオブジェクト整合型共同消去手法VEglueを提案する。
2つの公開データセットを含む4つの広く使われているVEシステム上でVEglueを評価する。
論文 参考訳(メタデータ) (2024-03-05T01:32:49Z) - Unleashing the Potential of Large Language Model: Zero-shot VQA for
Flood Disaster Scenario [6.820160182829294]
洪水被害評価のためのゼロショットVQAモデル(ZFDDA)を提案する。
洪水災害を主な研究対象とし,フリースタイルの洪水画像質問回答データセット(FFD-IQA)を構築した。
この新しいデータセットは、質問タイプを拡張して、自由形式、複数選択、イエスノー質問を含む。
我々のモデルは、大きな言語モデルの可能性を解き明かすために、よく設計された思考の連鎖(CoT)デモを使用する。
論文 参考訳(メタデータ) (2023-12-04T13:25:16Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Answer Mining from a Pool of Images: Towards Retrieval-Based Visual
Question Answering [7.3532068640624395]
本研究では,関連性のある無関係な画像のプールから回答を抽出しなければならない状況下で,視覚的質問応答について検討する。
そこで我々は,疑問を呈し,関連エンコーダを用いて画像検索を行うMulti Image BART (MI-BART) を提案する。
提案手法は,提案したデータセット,すなわちRETVQAにおいて76.5%の精度と79.3%の流速を実現する。
論文 参考訳(メタデータ) (2023-06-29T06:22:43Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - An Efficient and Scalable Deep Learning Approach for Road Damage
Detection [0.0]
本稿では,画像に基づく苦難データをリアルタイムに分析するためのディープラーニングに基づくサーベイ手法を提案する。
縦ひび割れ,横ひび割れ,アリゲーターひび割れなど,ひび割れの多種多様な種類からなるデータベースを用いる。
提案されたモデルでは、F1スコアは52%から56%まで、平均推測時間は毎秒178-10枚だった。
論文 参考訳(メタデータ) (2020-11-18T23:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。