論文の概要: CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
- arxiv url: http://arxiv.org/abs/2409.13903v1
- Date: Fri, 20 Sep 2024 21:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:39:44.107278
- Title: CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
- Title(参考訳): CI-Bench: 合成データに基づくAIアシスタントのコンテキスト統合のベンチマーク
- Authors: Zhao Cheng, Diane Wan, Matthew Abueg, Sahra Ghalebikesabi, Ren Yi, Eugene Bagdasarian, Borja Balle, Stefan Mellem, Shawn O'Banion,
- Abstract要約: CI-Benchは、モデル推論中に個人情報を保護するAIアシスタントの能力を評価するための包括的なベンチマークである。
対話やメールを含む自然なコミュニケーションを生成するための,新しい,スケーラブルなマルチステップデータパイプラインを提案する。
我々は、AIアシスタントを定式化し、評価し、パーソナルアシスタントタスクに向けたさらなる研究と注意深いトレーニングの必要性を実証する。
- 参考スコア(独自算出の注目度): 7.357348564300953
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advances in generative AI point towards a new era of personalized applications that perform diverse tasks on behalf of users. While general AI assistants have yet to fully emerge, their potential to share personal data raises significant privacy challenges. This paper introduces CI-Bench, a comprehensive synthetic benchmark for evaluating the ability of AI assistants to protect personal information during model inference. Leveraging the Contextual Integrity framework, our benchmark enables systematic assessment of information flow across important context dimensions, including roles, information types, and transmission principles. We present a novel, scalable, multi-step synthetic data pipeline for generating natural communications, including dialogues and emails. Unlike previous work with smaller, narrowly focused evaluations, we present a novel, scalable, multi-step data pipeline that synthetically generates natural communications, including dialogues and emails, which we use to generate 44 thousand test samples across eight domains. Additionally, we formulate and evaluate a naive AI assistant to demonstrate the need for further study and careful training towards personal assistant tasks. We envision CI-Bench as a valuable tool for guiding future language model development, deployment, system design, and dataset construction, ultimately contributing to the development of AI assistants that align with users' privacy expectations.
- Abstract(参考訳): 生成AIの進歩は、ユーザーに代わって多様なタスクを実行するパーソナライズされたアプリケーションの新しい時代に向かっている。
一般のAIアシスタントはまだ完全には登場していないが、個人情報を共有する可能性を秘めている。
本稿では、モデル推論中に個人情報を保護するAIアシスタントの能力を評価するための総合的な総合的なベンチマークであるCI-Benchを紹介する。
我々のベンチマークでは、コンテキスト整合性フレームワークを活用することで、役割、情報タイプ、伝達原則を含む重要なコンテキスト次元にわたる情報フローの体系的な評価を可能にします。
本稿では,対話や電子メールを含む自然なコミュニケーションを生成するための,新しい,スケーラブルで多段階の合成データパイプラインを提案する。
より小さく、狭く焦点を絞った以前の研究とは違って、我々は、対話やメールを含む自然なコミュニケーションを合成的に生成する、スケーラブルでマルチステップのデータパイプラインを新たに提示し、8つのドメインで4400万のテストサンプルを生成する。
さらに、AIアシスタントを定式化し、評価し、パーソナルアシスタントタスクに対するさらなる研究と注意深いトレーニングの必要性を実証する。
CI-Benchは将来の言語モデル開発、デプロイメント、システム設計、データセット構築をガイドする貴重なツールとして、最終的にはユーザのプライバシの期待に沿うAIアシスタントの開発に寄与する、と私たちは考えています。
関連論文リスト
- Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents [20.460482488872145]
本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。
本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。
定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-07-12T00:07:43Z) - Automating the Information Extraction from Semi-Structured Interview
Transcripts [0.0]
本稿では,半構造化面接書から情報を取り出す自動システムの開発と応用について検討する。
本稿では,研究者がインタビューデータのテーマ構造を効率的に処理し,視覚化できる,ユーザフレンドリーなソフトウェアプロトタイプを提案する。
論文 参考訳(メタデータ) (2024-03-07T13:53:03Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - CoAuthor: Designing a Human-AI Collaborative Writing Dataset for
Exploring Language Model Capabilities [92.79451009324268]
我々は,GPT-3の創造的かつ議論的な記述を支援する能力を明らかにするために設計されたデータセットであるCoAuthorを提案する。
我々は、CoAuthorがGPT-3の言語、アイデア、コラボレーション機能に関する問題に対処できることを実証した。
インタラクション設計に関して,この作業がLMの約束や落とし穴に関して,より原則化された議論を促進する可能性について論じる。
論文 参考訳(メタデータ) (2022-01-18T07:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。