論文の概要: ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.15435v1
- Date: Thu, 18 Sep 2025 21:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.906152
- Title: ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models
- Title(参考訳): ORCA:視覚・言語モデルにおける幻覚と対向ロバスト性のためのエージェント推論
- Authors: Chung-En Johnny Yu, Hsuan-Chih, Chen, Brian Jalaian, Nathaniel D. Bastian,
- Abstract要約: LVLM(Large Vision-Language Models)は、強力なマルチモーダル能力を示すが、固有のエラーによる幻覚や、外部の攻撃による敵攻撃に弱い。
本稿では,事前学習したLVLMの現実的精度と対角的ロバスト性を向上するエージェント推論フレームワークORCAを提案する。
- 参考スコア(独自算出の注目度): 21.41385041638416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) exhibit strong multimodal capabilities but remain vulnerable to hallucinations from intrinsic errors and adversarial attacks from external exploitations, limiting their reliability in real-world applications. We present ORCA, an agentic reasoning framework that improves the factual accuracy and adversarial robustness of pretrained LVLMs through test-time structured inference reasoning with a suite of small vision models (less than 3B parameters). ORCA operates via an Observe--Reason--Critique--Act loop, querying multiple visual tools with evidential questions, validating cross-model inconsistencies, and refining predictions iteratively without access to model internals or retraining. ORCA also stores intermediate reasoning traces, which supports auditable decision-making. Though designed primarily to mitigate object-level hallucinations, ORCA also exhibits emergent adversarial robustness without requiring adversarial training or defense mechanisms. We evaluate ORCA across three settings: (1) clean images on hallucination benchmarks, (2) adversarially perturbed images without defense, and (3) adversarially perturbed images with defense applied. On the POPE hallucination benchmark, ORCA improves standalone LVLM performance by +3.64\% to +40.67\% across different subsets. Under adversarial perturbations on POPE, ORCA achieves an average accuracy gain of +20.11\% across LVLMs. When combined with defense techniques on adversarially perturbed AMBER images, ORCA further improves standalone LVLM performance, with gains ranging from +1.20\% to +48.00\% across evaluation metrics. These results demonstrate that ORCA offers a promising path toward building more reliable and robust multimodal systems.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、強力なマルチモーダル能力を示すが、本質的なエラーや外部からの攻撃による幻覚に弱いままであり、現実のアプリケーションにおける信頼性を制限している。
3Bパラメータ未満の)小さな視覚モデルを用いたテスト時間構造推論推論により,事前学習したLVLMの現実的精度と対角的ロバスト性を向上するエージェント推論フレームワークORCAを提案する。
ORCAはObserve--Reason--Critique--Actループを介して動作し、明快な質問で複数のビジュアルツールをクエリし、クロスモデルの不整合を検証し、モデル内部へのアクセスや再トレーニングなしに反復的に予測を精査する。
ORCAはまた、監査可能な意思決定をサポートする中間的推論トレースを格納する。
ORCAは、主に対象レベルの幻覚を緩和するために設計されたが、敵の訓練や防御機構を必要とせずに、突発的な敵の堅牢性を示す。
ORCA は,(1) 幻覚ベンチマークのクリーン画像,(2) 防御のない逆摂動画像,(3) 防御を施した逆摂動画像の3つの設定で評価した。
POPE幻覚ベンチマークでは、ORCAはスタンドアロンのLVLM性能を、異なるサブセットで+3.64\%から+40.67\%に改善している。
POPEの対向摂動の下では、ORCAはLVLM全体の平均精度が+20.11\%に達する。
敵対的摂動型AMBER画像の防御技術と組み合わせることで、ORCAはさらにスタンドアロンのLVLM性能を改善し、評価指標の+1.20\%から+48.00\%まで向上する。
これらの結果は、ORCAがより信頼性が高く堅牢なマルチモーダルシステムを構築するための有望な道を提供することを示している。
関連論文リスト
- Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。
簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。
我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models [45.411850192809666]
textbfHydraは、プラグインビジョン言語モデル(VLM)を強化する適応型エージェントフレームワークである
敵対的な操作と本質的なモデルエラーの両方に適応し、悪意のある摂動や幻覚に関する不正確さに対して堅牢である。
その結果,HydraはプラグインVLMやSOTA(State-of-the-art Dehallucination Method)を超越し,堅牢性と現実の整合性を示した。
論文 参考訳(メタデータ) (2025-04-19T19:51:20Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - Hierarchical Self-Supervised Adversarial Training for Robust Vision Models in Histopathology [64.46054930696052]
敵対的攻撃は、医療のような重要な分野におけるビジョンモデルに重大な課題をもたらす。
既存の自己監督型逆行訓練手法は、病理像の階層構造を見落としている。
本稿では,これらの特性を活かした階層型自己監督適応訓練(HSAT)を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:59:47Z) - SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models [6.52323086990482]
視覚言語モデル(VLM)は、高度なマルチモーダル推論を実証するが、知識の衝突に直面した場合には幻覚を起こす傾向がある。
本研究は,VLMレジリエンスを知識衝突に対して調査するために,目標画像摂動を適用するフレームワークであるsegsubを紹介する。
論文 参考訳(メタデータ) (2025-02-19T00:26:38Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Enhancing Object Detection Robustness: Detecting and Restoring Confidence in the Presence of Adversarial Patch Attacks [2.963101656293054]
敵パッチに対するYOLOv5モデルの防御機構について検討した。
我々はSegment and Complete (SAC)、Inpainting、Latent Diffusion Modelsを含むいくつかの防衛実験を行った。
その結果, 対向パッチは平均検出信頼度を22.06%低下させることがわかった。
論文 参考訳(メタデータ) (2024-03-04T13:32:48Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。