論文の概要: Dual Turing Test: A Framework for Detecting and Mitigating Undetectable AI
- arxiv url: http://arxiv.org/abs/2507.15907v1
- Date: Mon, 21 Jul 2025 13:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.809876
- Title: Dual Turing Test: A Framework for Detecting and Mitigating Undetectable AI
- Title(参考訳): Dual Turing Test: 検出不能なAIの検出と修正のためのフレームワーク
- Authors: Alberto Messina,
- Abstract要約: 筆者らは,(1)チューリングテストの反転的視点,2)人間裁判官の目標は,機械に偽装を報いるのではなくAIを識別すること,(2)明示的な品質制約と最悪の保証を有する形式的対人分類ゲーム,(3)非検出性検出器とその報酬モデルにおける品質関連コンポーネントのセットを用いた強化学習パイプライン,の3分野を橋渡しする統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5950928230601965
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this short note, we propose a unified framework that bridges three areas: (1) a flipped perspective on the Turing Test, the "dual Turing test", in which a human judge's goal is to identify an AI rather than reward a machine for deception; (2) a formal adversarial classification game with explicit quality constraints and worst-case guarantees; and (3) a reinforcement learning (RL) alignment pipeline that uses an undetectability detector and a set of quality related components in its reward model. We review historical precedents, from inverted and meta-Turing variants to modern supervised reverse-Turing classifiers, and highlight the novelty of combining quality thresholds, phased difficulty levels, and minimax bounds. We then formalize the dual test: define the judge's task over N independent rounds with fresh prompts drawn from a prompt space Q, introduce a quality function Q and parameters tau and delta, and cast the interaction as a two-player zero-sum game over the adversary's feasible strategy set M. Next, we map this minimax game onto an RL-HF style alignment loop, in which an undetectability detector D provides negative reward for stealthy outputs, balanced by a quality proxy that preserves fluency. Throughout, we include detailed explanations of each component notation, the meaning of inner minimization over sequences, phased tests, and iterative adversarial training and conclude with a suggestion for a couple of immediate actions.
- Abstract(参考訳): 本稿では,(1)チューリングテストにおける一括的視点,(1)人間裁判官の目標とする「デュアルチューリングテスト」という3つの分野を橋渡しする統一的枠組みを提案する。(2) 不正行為に対して機械に報奨を与えるのではなくAIを識別すること,(2) 明示的な品質制約と最悪の保証を有する形式的対人分類ゲーム,(3) 検出不能検出器とその報酬モデルにおける品質関連コンポーネントのセットを利用する強化学習(RL)アライメントパイプラインである。
逆転およびメタチューリングの変種から現代の教師付き逆チューリング分類器に至るまでの歴史的先例を概観し、品質閾値、段階的難易度、ミニマックス境界の組み合わせの新規性を強調した。
次に、このミニマックスゲームをRL-HFスタイルのアライメントループにマッピングし、非検出性検出器Dが、フルーエンシを保存する品質プロキシによってバランスの取れたステルス出力に対して負の報酬を与える。
本報告では,各コンポーネントの表記法,シーケンスに対する内的最小化の意味,段階的テスト,反復的対人訓練について詳細に説明し,いくつかの即時行動を提案する。
関連論文リスト
- Zero-shot Hazard Identification in Autonomous Driving: A Case Study on the COOOL Benchmark [0.0]
本稿では,自動運転におけるラベル外ハザードの検出と分類のための新しいベンチマークであるCOOOLコンペティションについて述べる。
本手法は, 運転者反応検出, (ii) 危険物識別, (iii) 危険キャプションの3つのタスクにまたがる多様な手法を統合する。
提案されたパイプラインはベースライン手法を大きなマージンで上回り、相対誤差を33%減らし、32チームからなる最終リーダーボードで2位となった。
論文 参考訳(メタデータ) (2024-12-27T22:43:46Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - HQOD: Harmonious Quantization for Object Detection [15.440752329646351]
タスク不調和問題は、現代のオブジェクト検出器で一般的に発生し、分類と回帰タスクの間に一貫性のない性質をもたらす。
本稿では,2つのコンポーネントから構成されるHormonious Quantization for Object Detection (HQOD)フレームワークを提案する。
ResNet-50のバックボーンを持つ4ビットATSSは、最先端のmAPを39.6%達成し、完全な精度を超えています。
論文 参考訳(メタデータ) (2024-08-05T15:37:18Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement [59.6260680005195]
本稿では,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアルデノケーションプロセスとして検索する人を定式化する。
新しいパラダイムに従って、我々は、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
論文 参考訳(メタデータ) (2023-09-20T08:16:39Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - OW-DETR: Open-world Detection Transformer [90.56239673123804]
オープンワールドオブジェクト検出のための新しいエンドツーエンドトランスフォーマーベースのフレームワークOW-DETRを提案する。
OW-DETRは3つの専用コンポーネント、すなわち注目駆動の擬似ラベル、新規性分類、オブジェクトネススコアから構成される。
我々のモデルは、最近導入されたOWODアプローチであるOREよりも優れており、リコールの度合いは1.8%から3.3%である。
論文 参考訳(メタデータ) (2021-12-02T18:58:30Z) - Which to Match? Selecting Consistent GT-Proposal Assignment for
Pedestrian Detection [23.92066492219922]
IoU(Universal Intersection over Union)ベースの割り当て-回帰方式は依然としてパフォーマンスを制限している。
新しい割り当てと回帰メトリックとして、1つの幾何学的敏感検索アルゴリズムを紹介します。
具体的には、MR-FPPIをR$_75$で8.8%向上させます。
論文 参考訳(メタデータ) (2021-03-18T08:54:51Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。