論文の概要: Imitation Game for Adversarial Disillusion with Multimodal Generative Chain-of-Thought Role-Play
- arxiv url: http://arxiv.org/abs/2501.19143v1
- Date: Fri, 31 Jan 2025 13:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:13.043034
- Title: Imitation Game for Adversarial Disillusion with Multimodal Generative Chain-of-Thought Role-Play
- Title(参考訳): マルチモーダル・ジェネレーション・オブ・サードロールプレイによる逆行性幻覚のシミュレーションゲーム
- Authors: Ching-Chun Chang, Fan-Yun Chen, Shih-Hong Gu, Kai Gao, Hanrui Wang, Isao Echizen,
- Abstract要約: 模倣ゲームの概念に基づく幻滅パラダイムを提案する。
模倣ゲームの中心には多モーダル生成剤があり、チェーン・オブ・シークレットの推論によって操られている。
- 参考スコア(独自算出の注目度): 14.195175901422308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the cornerstone of artificial intelligence, machine perception confronts a fundamental threat posed by adversarial illusions. These adversarial attacks manifest in two primary forms: deductive illusion, where specific stimuli are crafted based on the victim model's general decision logic, and inductive illusion, where the victim model's general decision logic is shaped by specific stimuli. The former exploits the model's decision boundaries to create a stimulus that, when applied, interferes with its decision-making process. The latter reinforces a conditioned reflex in the model, embedding a backdoor during its learning phase that, when triggered by a stimulus, causes aberrant behaviours. The multifaceted nature of adversarial illusions calls for a unified defence framework, addressing vulnerabilities across various forms of attack. In this study, we propose a disillusion paradigm based on the concept of an imitation game. At the heart of the imitation game lies a multimodal generative agent, steered by chain-of-thought reasoning, which observes, internalises and reconstructs the semantic essence of a sample, liberated from the classic pursuit of reversing the sample to its original state. As a proof of concept, we conduct experimental simulations using a multimodal generative dialogue agent and evaluates the methodology under a variety of attack scenarios.
- Abstract(参考訳): 人工知能の基盤として、機械知覚は敵の錯覚によって引き起こされる根本的な脅威に直面している。
これらの敵対的攻撃は2つの主要な形態で表される: 誘導的錯覚(deductive illusion)、特定の刺激(deductive stimuli) - 被害者モデルの一般的な決定論理に基づいて特定の刺激が作成され、誘導的錯覚(inductive illusion) - 被害者モデルの一般的な決定論理が特定の刺激によって形成される。
前者はモデルの決定境界を利用して、適用された場合、その決定プロセスに干渉する刺激を生成する。
後者はモデル内の条件付き反射を補強し、学習フェーズ中にバックドアを埋め込む。
敵の錯覚の多面的な性質は、様々な形の攻撃にまたがる脆弱性に対処する統一された防御フレームワークを要求する。
本研究では,模倣ゲームの概念に基づく幻滅パラダイムを提案する。
模倣ゲームの中心には、サンプルを元の状態に戻すという古典的な追求から解放された、サンプルの意味の本質を観察し、内部化し、再構築するチェーン・オブ・シント推論(英語版)によって操られるマルチモーダル生成剤がある。
概念実証として,マルチモーダル生成対話エージェントを用いて実験シミュレーションを行い,様々な攻撃シナリオ下での方法論の評価を行った。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - A Descriptive Model for Modelling Attacker Decision-Making in Cyber-Deception [0.0]
本稿では,この決定を形作る心理的・戦略的要素を組み込んだ記述モデルを提案する。
このフレームワークは、サイバー詐欺シナリオにおけるエンゲージメント決定を分析するための構造化された方法を提供する。
論文 参考訳(メタデータ) (2025-12-03T10:23:33Z) - Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models [25.61834023007555]
MM-DeceptionBenchは、マルチモーダルな偽装を評価するために明示的に設計された最初のベンチマークである。
MM-DeceptionBenchは、視覚とテキストの組み合わせによってモデルがどのように戦略的に操作し、誤解を招くかを特徴付ける。
本稿では,新しいマルチエージェント・ディベート・モニタ・フレームワークである画像を用いた議論を提案する。
論文 参考訳(メタデータ) (2025-11-29T06:39:36Z) - ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - LLMs as Strategic Agents: Beliefs, Best Response Behavior, and Emergent Heuristics [0.0]
大規模言語モデル(LLM)は、他のエージェントの振る舞いを推論する必要のあるドメインにますます適用されています。
現状のフロンティアモデルでは, 目的的推論記憶における信念コヒーレントなベストレスポンス行動を示す。
複雑さが増大する中で、明示的な再帰は、安定した、モデル固有の、既知の人間のバイアスとは異なる選択規則を内部的に生成する手段を与える。
論文 参考訳(メタデータ) (2025-10-12T21:40:29Z) - Disagreements in Reasoning: How a Model's Thinking Process Dictates Persuasion in Multi-Agent Systems [49.69773210844221]
本稿では,説得力はモデルスケールの関数である,という一般的な仮説に挑戦する。
一連のマルチエージェントの説得実験を通じて、パーサーション・デュナリティ(Persuasion Duality)と呼ばれる基本的なトレードオフを明らかにする。
以上の結果から, LRMの推理過程は説得に対する抵抗性が大きく, 当初の信念をより堅固に維持していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T12:03:10Z) - Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning [9.769695768744421]
設計による「本質的に」解釈可能なモデルの敵の操作に対する過度信頼と感受性に関連するリスクを強調した。
潜伏プロトタイプの使用によってモデルの推論を養うことは、ディープニューラルネットワークの本質的非解釈可能性を示す。
プロトタイプベースのネットワークの制限が報告されたことにより、信頼性と適用性に疑問が投げかけられた。
論文 参考訳(メタデータ) (2025-03-11T17:24:33Z) - Application of Multiple Chain-of-Thought in Contrastive Reasoning for Implicit Sentiment Analysis [1.9472869221587836]
暗黙の感情分析は、微妙に表現された感情を明らかにすることを目的としており、曖昧さと比喩的な言語によってしばしば隠蔽される。
本稿では、暗黙の感情分析の性能を高めるために、新しい2元逆連鎖推論フレームワークを提案する。
また、ランダム仮説の限界に対処する三重逆連鎖推論フレームワークも導入する。
論文 参考訳(メタデータ) (2025-03-10T10:10:50Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Steganography in Game Actions [8.095373104009868]
本研究は, 実効性のあるステガノグラフィー媒体であると考えられるものの境界を拡大することを目的としている。
本研究では,環境と対話する複数のエージェントのエピソードを通して,隠れた情報を伝達するステガノグラフィーのパラダイムを探求する。
概念実証として,目的に向かって操る行為において,サブリミナル通信を隠蔽するナビゲーションタスクであるラビリンスゲームを通じて,アクションステガノグラフィーを例示する。
論文 参考訳(メタデータ) (2024-12-11T12:02:36Z) - BadCM: Invisible Backdoor Attack Against Cross-Modal Learning [110.37205323355695]
クロスモーダルバックドアにおけるパズルの欠片を補うために,新たな両面バックドアを導入する。
BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドである。
論文 参考訳(メタデータ) (2024-10-03T03:51:53Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Play with Emotion: Affect-Driven Reinforcement Learning [3.611888922173257]
本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。
我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
論文 参考訳(メタデータ) (2022-08-26T12:28:24Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Agent-Based Simulation of Collective Cooperation: From Experiment to
Model [0.0]
我々は,人が密集した静的な群集を通り抜けたときに何が起こるのかを観察する実験を行う。
我々は,協力を必要とする状況に対するエージェントの認識と認知処理を取り入れたモデルを構築した。
エージェントが密集した群衆をうまく通過する能力は、心理的モデルの効果として現れる。
論文 参考訳(メタデータ) (2020-05-26T13:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。