Fugu-MT 論文翻訳(概要): Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models

論文の概要: Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models

arxiv url: http://arxiv.org/abs/2504.14395v1
Date: Sat, 19 Apr 2025 19:51:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 00:50:25.17318
Title: Hydra: An Agentic Reasoning Approach for Enhancing Adversarial Robustness and Mitigating Hallucinations in Vision-Language Models
Title（参考訳）: Hydra:視覚・言語モデルにおける対人ロバスト性向上と幻覚の緩和のためのエージェント推論アプローチ
Authors: Chung-En, Yu, Hsuan-Chih, Chen, Brian Jalaian, Nathaniel D. Bastian,
Abstract要約: textbfHydraは、プラグインビジョン言語モデル(VLM)を強化する適応型エージェントフレームワークである敵対的な操作と本質的なモデルエラーの両方に適応し、悪意のある摂動や幻覚に関する不正確さに対して堅牢である。その結果,HydraはプラグインVLMやSOTA(State-of-the-art Dehallucination Method)を超越し,堅牢性と現実の整合性を示した。
参考スコア（独自算出の注目度）: 45.411850192809666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To develop trustworthy Vision-Language Models (VLMs), it is essential to address adversarial robustness and hallucination mitigation, both of which impact factual accuracy in high-stakes applications such as defense and healthcare. Existing methods primarily focus on either adversarial defense or hallucination post-hoc correction, leaving a gap in unified robustness strategies. We introduce \textbf{Hydra}, an adaptive agentic framework that enhances plug-in VLMs through iterative reasoning, structured critiques, and cross-model verification, improving both resilience to adversarial perturbations and intrinsic model errors. Hydra employs an Action-Critique Loop, where it retrieves and critiques visual information, leveraging Chain-of-Thought (CoT) and In-Context Learning (ICL) techniques to refine outputs dynamically. Unlike static post-hoc correction methods, Hydra adapts to both adversarial manipulations and intrinsic model errors, making it robust to malicious perturbations and hallucination-related inaccuracies. We evaluate Hydra on four VLMs, three hallucination benchmarks, two adversarial attack strategies, and two adversarial defense methods, assessing performance on both clean and adversarial inputs. Results show that Hydra surpasses plug-in VLMs and state-of-the-art (SOTA) dehallucination methods, even without explicit adversarial defenses, demonstrating enhanced robustness and factual consistency. By bridging adversarial resistance and hallucination mitigation, Hydra provides a scalable, training-free solution for improving the reliability of VLMs in real-world applications.
Abstract（参考訳）: VLM(Vision-Language Models)を開発するためには,防衛や医療といった高精細な応用において,現実の精度に影響を及ぼす敵の堅牢性や幻覚の緩和に対処することが不可欠である。既存の方法は、主に敵防衛または幻覚後の修正に焦点を合わせており、統一された堅牢性戦略のギャップを残している。本稿では,反復的推論,構造化批判,相互モデルの検証を通じて,プラグインVLMを強化する適応型エージェントフレームワークであるtextbf{Hydra}を紹介する。 HydraはAction-Critique Loopを採用しており、Chain-of-Thought (CoT) と In-Context Learning (ICL) の技術を利用して、視覚情報を検索し、批判する。静的なポストホック補正法とは異なり、Hydraは敵対的な操作と本質的なモデルエラーの両方に適応し、悪意のある摂動や幻覚に関連した不正確さに対して堅牢である。我々は,Hydraを4つのVLM,3つの幻覚ベンチマーク,2つの敵攻撃戦略,および2つの敵防御手法で評価し,クリーン入力と逆入力の両方で性能を評価する。その結果,Hydra はプラグイン VLM や State-of-the-art (SOTA) dehallucination 法を超越していることがわかった。対向抵抗と幻覚緩和をブリッジすることで、Hydraは、現実世界のアプリケーションにおけるVLMの信頼性を向上させるためのスケーラブルでトレーニングなしのソリューションを提供する。

関連論文リスト

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction [67.45032003041399]
本研究では,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。 SADCAは、対立、正、負のサンプルを含む対照的な学習メカニズムを確立し、得られた摂動の意味的不整合を強化する。複数のデータセットとモデルの実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超えることを示した。
論文参考訳（メタデータ） (2026-03-05T05:46:16Z)
Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-02T19:36:03Z)
Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。 Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-13T03:56:40Z)
Self-Calibrated Consistency can Fight Back for Adversarial Robustness in Vision-Language Models [31.920092341939593]
自己キャリブレーション・コンシスタンシー(Self-Calibrated Consistency)は、敵の攻撃に対する効果的なテストタイム防衛である。 SCCは精度を維持しながら、CLIPのゼロショットロバスト性を一貫して改善する。これらの知見は、CLIPから逆向きに堅牢なパラダイムを確立する大きな可能性を浮き彫りにした。
論文参考訳（メタデータ） (2025-10-26T18:37:12Z)
Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。 VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。 VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-24T14:52:01Z)
FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。敵画像はVLAモデルを「凍結」し、その後の命令を無視する。 FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文参考訳（メタデータ） (2025-09-24T08:15:28Z)
LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文参考訳（メタデータ） (2025-09-24T07:31:54Z)
AdvGrasp: Adversarial Attacks on Robotic Grasping from a Physical Perspective [4.428272932902862]
本稿では,身体的視点からロボットグルーピングに対する敵対的攻撃を行うフレームワークであるAdvGraspを紹介する。物体の形状を変形させることにより、重力トルクを増大させ、レンチ空間の安定性の限界を減少させることにより、把握性能を損なう対向物体を生成する。
論文参考訳（メタデータ） (2025-07-14T01:48:42Z)
DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文参考訳（メタデータ） (2025-06-04T13:26:33Z)
Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文参考訳（メタデータ） (2024-08-24T04:31:37Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文参考訳（メタデータ） (2024-05-17T04:19:19Z)
The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文参考訳（メタデータ） (2024-05-14T18:05:19Z)
Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。 MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文参考訳（メタデータ） (2024-04-04T10:10:38Z)
Embodied Active Defense: Leveraging Recurrent Feedback to Counter Adversarial Patches [37.317604316147985]
敵のパッチに対するディープニューラルネットワークの脆弱性は、モデルロバスト性を高めるための多くの防衛戦略を動機付けている。本研究では,環境情報を積極的に文脈化して,現実の3次元環境における不整合に対処するEmbodied Active Defense (EAD) を開発した。
論文参考訳（メタデータ） (2024-03-31T03:02:35Z)
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-08T09:08:50Z)
Consistent Valid Physically-Realizable Adversarial Attack against Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。 DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文参考訳（メタデータ） (2023-03-05T13:30:25Z)
Masking Adversarial Damage: Finding Adversarial Saliency for Robust and Sparse Network [33.18197518590706]
敵対的な例は、ディープニューラルネットワークの弱い信頼性と潜在的なセキュリティ問題を引き起こす。本稿では, 対向的損失の2次情報を利用した新しい対向的プルーニング手法, Masking Adversarial damage (MAD)を提案する。我々は,MADが敵の強靭性を損なうことなく敵の訓練網を効果的に突破し,従来の敵のプルーニング手法よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2022-04-06T11:28:06Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。