論文の概要: Imitation Game for Adversarial Disillusion with Multimodal Generative Chain-of-Thought Role-Play
- arxiv url: http://arxiv.org/abs/2501.19143v1
- Date: Fri, 31 Jan 2025 13:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:41.821628
- Title: Imitation Game for Adversarial Disillusion with Multimodal Generative Chain-of-Thought Role-Play
- Title(参考訳): マルチモーダル・ジェネレーション・オブ・サードロールプレイによる逆行性幻覚のシミュレーションゲーム
- Authors: Ching-Chun Chang, Fan-Yun Chen, Shih-Hong Gu, Kai Gao, Hanrui Wang, Isao Echizen,
- Abstract要約: 模倣ゲームの概念に基づく幻滅パラダイムを提案する。
模倣ゲームの中心には多モーダル生成剤があり、チェーン・オブ・シークレットの推論によって操られている。
- 参考スコア(独自算出の注目度): 14.195175901422308
- License:
- Abstract: As the cornerstone of artificial intelligence, machine perception confronts a fundamental threat posed by adversarial illusions. These adversarial attacks manifest in two primary forms: deductive illusion, where specific stimuli are crafted based on the victim model's general decision logic, and inductive illusion, where the victim model's general decision logic is shaped by specific stimuli. The former exploits the model's decision boundaries to create a stimulus that, when applied, interferes with its decision-making process. The latter reinforces a conditioned reflex in the model, embedding a backdoor during its learning phase that, when triggered by a stimulus, causes aberrant behaviours. The multifaceted nature of adversarial illusions calls for a unified defence framework, addressing vulnerabilities across various forms of attack. In this study, we propose a disillusion paradigm based on the concept of an imitation game. At the heart of the imitation game lies a multimodal generative agent, steered by chain-of-thought reasoning, which observes, internalises and reconstructs the semantic essence of a sample, liberated from the classic pursuit of reversing the sample to its original state. As a proof of concept, we conduct experimental simulations using a multimodal generative dialogue agent and evaluates the methodology under a variety of attack scenarios.
- Abstract(参考訳): 人工知能の基盤として、機械知覚は敵の錯覚によって引き起こされる根本的な脅威に直面している。
これらの敵対的攻撃は2つの主要な形態で表される: 誘導的錯覚(deductive illusion)、特定の刺激(deductive stimuli) - 被害者モデルの一般的な決定論理に基づいて特定の刺激が作成され、誘導的錯覚(inductive illusion) - 被害者モデルの一般的な決定論理が特定の刺激によって形成される。
前者はモデルの決定境界を利用して、適用された場合、その決定プロセスに干渉する刺激を生成する。
後者はモデル内の条件付き反射を補強し、学習フェーズ中にバックドアを埋め込む。
敵の錯覚の多面的な性質は、様々な形の攻撃にまたがる脆弱性に対処する統一された防御フレームワークを要求する。
本研究では,模倣ゲームの概念に基づく幻滅パラダイムを提案する。
模倣ゲームの中心には、サンプルを元の状態に戻すという古典的な追求から解放された、サンプルの意味の本質を観察し、内部化し、再構築するチェーン・オブ・シント推論(英語版)によって操られるマルチモーダル生成剤がある。
概念実証として,マルチモーダル生成対話エージェントを用いて実験シミュレーションを行い,様々な攻撃シナリオ下での方法論の評価を行った。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Steganography in Game Actions [8.095373104009868]
本研究は, 実効性のあるステガノグラフィー媒体であると考えられるものの境界を拡大することを目的としている。
本研究では,環境と対話する複数のエージェントのエピソードを通して,隠れた情報を伝達するステガノグラフィーのパラダイムを探求する。
概念実証として,目的に向かって操る行為において,サブリミナル通信を隠蔽するナビゲーションタスクであるラビリンスゲームを通じて,アクションステガノグラフィーを例示する。
論文 参考訳(メタデータ) (2024-12-11T12:02:36Z) - BadCM: Invisible Backdoor Attack Against Cross-Modal Learning [110.37205323355695]
クロスモーダルバックドアにおけるパズルの欠片を補うために,新たな両面バックドアを導入する。
BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドである。
論文 参考訳(メタデータ) (2024-10-03T03:51:53Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Play with Emotion: Affect-Driven Reinforcement Learning [3.611888922173257]
本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。
我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
論文 参考訳(メタデータ) (2022-08-26T12:28:24Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Failures of Contingent Thinking [2.055949720959582]
実験環境下で観察された幅広い行動は,意味を認識できないことが示唆された。
エージェントの含意が,その行動の根底にある主観的状態空間を識別することを示す。
論文 参考訳(メタデータ) (2020-07-15T14:21:16Z) - Agent-Based Simulation of Collective Cooperation: From Experiment to
Model [0.0]
我々は,人が密集した静的な群集を通り抜けたときに何が起こるのかを観察する実験を行う。
我々は,協力を必要とする状況に対するエージェントの認識と認知処理を取り入れたモデルを構築した。
エージェントが密集した群衆をうまく通過する能力は、心理的モデルの効果として現れる。
論文 参考訳(メタデータ) (2020-05-26T13:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。