Fugu-MT 論文翻訳(概要): Disclosure By Design: Identity Transparency as a Behavioural Property of Conversational AI Models

論文の概要: Disclosure By Design: Identity Transparency as a Behavioural Property of Conversational AI Models

arxiv url: http://arxiv.org/abs/2603.16874v1
Date: Tue, 27 Jan 2026 17:31:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.349765
Title: Disclosure By Design: Identity Transparency as a Behavioural Property of Conversational AI Models
Title（参考訳）: 設計による開示:会話型AIモデルの振る舞い特性としてのアイデンティティ透明性
Authors: Anna Gausen, Sarenne Wallbridge, Hannah Rose Kirk, Jennifer Williams, Christopher Summerfield,
Abstract要約: AIのアイデンティティが不明な場合、ユーザーは無意識に機密情報を共有したり、AIが生成するアドバイスを不当に信頼したり、AI対応の詐欺の被害を被る可能性がある。我々は、AIシステムが直接尋ねられたとき、人工的なアイデンティティを明示的に開示する設計による開示を提唱する。ベースライン開示率は高いことが多いが、ロールプレイが著しく低下し、相手のプロンプトで抑制できることがわかった。
参考スコア（独自算出の注目度）: 10.35358368112024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As conversational AI systems become more realistic and widely deployed, users are increasingly uncertain about whether they are interacting with a human or an AI system. When AI identity is unclear, users may unwittingly share sensitive information, place unwarranted trust in AI-generated advice, or fall victim to AI-enabled fraud. More broadly, a persistent lack of transparency can erode trust in mediated communication. While regulations like the EU AI Act and California's BOT Act require AI systems to identify themselves, they provide limited guidance on reliable disclosure in real-time conversation. Existing transparency mechanisms also leave gaps: interface indicators can be omitted by deployers, and provenance tools require coordinated infrastructure and cannot provide reliable real-time verification. We ask how conversational AI systems should maintain identity transparency as human-AI interactions become more ambiguous and diverse. We advocate for disclosure by design, where AI systems explicitly disclose their artificial identity when directly asked. Implemented as model behaviour, disclosure can persist across deployment contexts without relying on user interfaces, while preserving user agency to verify identity on demand without disrupting immersive uses like role-playing. To assess current practice, we present the first multi-modal (text and voice) evaluation of disclosure behaviour in deployed systems across baseline, role-playing, and adversarial settings. We find that baseline disclosure rates are often high but drop substantially in role-play and can be suppressed under adversarial prompting. Importantly, disclosure rates vary significantly across providers and modalities, highlighting the fragility of current disclosure behaviour. We conclude with technical interventions to help developers embed disclosure as a fundamental property of conversational AI models.
Abstract（参考訳）: 会話型AIシステムがより現実的で広くデプロイされるようになると、ユーザーは人間やAIシステムと対話しているかどうかをますます不透明になってきている。 AIのアイデンティティが不明な場合、ユーザーは無意識に機密情報を共有したり、AIが生成するアドバイスを不当に信頼したり、AI対応の詐欺の被害を被る可能性がある。より広範に言えば、透明性の欠如は、仲介されたコミュニケーションに対する信頼を損なう可能性がある。 EUのAI法やカリフォルニア州のBOT法のような規制は、AIシステムに自身を特定することを要求するが、リアルタイム会話における信頼できる開示に関する限られたガイダンスを提供する。インターフェースインジケータはデプロイによって省略され、前処理ツールは協調的なインフラストラクチャを必要とするため、信頼性の高いリアルタイム検証は提供できない。我々は、人間とAIの相互作用がよりあいまいで多様になるにつれて、対話型AIシステムがアイデンティティの透明性を維持するべきかどうか尋ねる。我々は、AIシステムが直接尋ねられたとき、人工的なアイデンティティを明示的に開示する設計による開示を提唱する。モデルの振る舞いとして実装された情報開示は、ユーザインターフェースに頼ることなく、デプロイメントコンテキスト全体に持続すると同時に、ユーザエージェンシーを保護して、ロールプレイングのような没入的な使用を中断することなく、オンデマンドのIDを検証します。現在の実践を評価するため,本研究では,ベースライン,ロールプレイング,対向的な設定にまたがるデプロイシステムにおける開示行動のマルチモーダル(テキストと音声)評価について紹介する。ベースライン開示率は高いことが多いが、ロールプレイが著しく低下し、相手のプロンプトで抑制できることがわかった。重要なことは、開示率はプロバイダやモダリティによって大きく異なり、現在の開示行動の脆弱さを強調している。我々は、開発者が会話型AIモデルの基本的な特性として開示を埋め込むのを助けるために、技術的な介入で締めくくります。

関連論文リスト

When Visibility Outpaces Verification: Delayed Verification and Narrative Lock-in in Agentic AI Discourse [2.5424331328233207]
エージェントAIシステム - 独立した計画と実行が可能な自律的なエンティティ。本稿ではエージェントAIのオンライン議論における社会的証明と検証タイミングの相互作用について検討する。
論文参考訳（メタデータ） (2026-02-11T22:30:12Z)
From Defense to Advocacy: Empowering Users to Leverage the Blind Spot of AI Inference [0.0]
ほとんどのプライバシー規制は、ユーザーが自制しなければならない受動的防御シールドとして機能する。組織がAIを使って推論するにつれ、Blind Selfの急速な拡張が重要な課題として現れている。文脈整合性の理論に基づいて、防衛的プライバシー管理から積極的なプライバシー擁護へのパラダイムシフトを提案する。
論文参考訳（メタデータ） (2026-01-16T22:42:27Z)
The Fake Friend Dilemma: Trust and the Political Economy of Conversational AI [2.538209532048867]
本稿では,AIエージェントを信頼する社会工学的条件であるFake Friend Dilemma(FFD)を開発した。我々は、隠蔽広告、政治プロパガンダ、行動ヌード、監視など、害のタイプロジを構築している。非対称的なパワーのベクターとしての信頼に焦点を当てることで、FFDはAIシステムがいかにユーザーの自律性を損なうかを理解するためのレンズを提供する。
論文参考訳（メタデータ） (2026-01-06T18:07:52Z)
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [66.29263282311258]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文参考訳（メタデータ） (2025-03-12T19:30:31Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Users are the North Star for AI Transparency [111.5679109784322]
透明な人工知能システムを求める声が広まっているにもかかわらず、この用語は、厳密な政策の目的や具体的な研究ラインのオリエント化を表すために、多義的な意味に過大評価されている。このことが起こる理由の1つは、AI透明性の明確な理想が、この仕事の体で実現されないことである。透明性はユーザ中心で、ユーザ指向で、誠実です。
論文参考訳（メタデータ） (2023-03-09T18:53:29Z)
Explainable AI does not provide the explanations end-users are asking for [0.0]
我々は、XAIのデプロイメントにおける制限について議論し、厳格な検証とともに透明性がAIシステムへの信頼を得るのに適していると結論づける。 XAI技術は、複雑なモデルや関連する予測を理解し、信頼を得ることを目標として、多くのAIシステムのユーザによって頻繁に要求される。
論文参考訳（メタデータ） (2023-01-25T10:34:38Z)
Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。 43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文参考訳（メタデータ） (2022-11-12T21:54:05Z)
Should Machine Learning Models Report to Us When They Are Clueless? [0.0]
我々は、AIモデルは、慣れ親しんだデータの範囲外を誇張していると報告する。モデルを外挿したかどうかを知ることは、AIモデルの説明に含めるべき基本的な洞察である。
論文参考訳（メタデータ） (2022-03-23T01:50:24Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文参考訳（メタデータ） (2020-11-02T20:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。