論文の概要: Anticipating Safety Issues in E2E Conversational AI: Framework and
Tooling
- arxiv url: http://arxiv.org/abs/2107.03451v1
- Date: Wed, 7 Jul 2021 19:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:49:08.657429
- Title: Anticipating Safety Issues in E2E Conversational AI: Framework and
Tooling
- Title(参考訳): E2E会話型AIの安全性問題:フレームワークとツール
- Authors: Emily Dinan, Gavin Abercrombie, A. Stevie Bergman, Shannon Spruit,
Dirk Hovy, Y-Lan Boureau, Verena Rieser
- Abstract要約: エンドツーエンドの会話型AIモデルのリリースについて、意思決定を行うためのフレームワークを提供する。
さらに、トレーニングやエンドツーエンドの会話型AIモデルのリリースに関して、研究者がよりインフォームドな決定を下せるための一連のツールも提供しています。
- 参考スコア(独自算出の注目度): 19.711141830722397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last several years, end-to-end neural conversational agents have
vastly improved in their ability to carry a chit-chat conversation with humans.
However, these models are often trained on large datasets from the internet,
and as a result, may learn undesirable behaviors from this data, such as toxic
or otherwise harmful language. Researchers must thus wrestle with the issue of
how and when to release these models. In this paper, we survey the problem
landscape for safety for end-to-end conversational AI and discuss recent and
related work. We highlight tensions between values, potential positive impact
and potential harms, and provide a framework for making decisions about whether
and how to release these models, following the tenets of value-sensitive
design. We additionally provide a suite of tools to enable researchers to make
better-informed decisions about training and releasing end-to-end
conversational AI models.
- Abstract(参考訳): 過去数年間、エンド・ツー・エンドの神経会話エージェントは、人間とのチットチャットの会話能力を大幅に向上させてきた。
しかし、これらのモデルは、しばしばインターネットから大きなデータセットで訓練され、その結果、有害な言語や有害な言語など、このデータから望ましくない振る舞いを学ぶ可能性がある。
そのため研究者は、これらのモデルのリリース方法と時期の問題に対処しなければならない。
本稿では,エンド・ツー・エンドの対話型AIの安全性に関する問題点を調査し,最近および関連研究について論じる。
私たちは、価値、潜在的なポジティブな影響、潜在的な害の間の緊張を強調し、価値に敏感な設計の傾向に従い、これらのモデルのリリースの可否と方法を決定するためのフレームワークを提供します。
さらに、トレーニングやエンドツーエンドの会話型AIモデルのリリースに関して、研究者がよりよいインフォームド決定を行えるようなツールセットも提供しています。
関連論文リスト
- Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Improving Dialog Safety using Socially Aware Contrastive Learning [8.503001932363704]
対人・カジュアル・ダイアログの文脈における社会性について検討する。
これらの問題に対処するための2段階の微調整プロセスを提案する。
私たちは、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用することで、社会行動を統合するベースモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-01T09:24:33Z) - Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles [2.134057414078079]
大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T23:57:44Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Identifying and Mitigating the Security Risks of Generative AI [179.2384121957896]
本稿では,GenAIによる双対ジレンマに関するGoogleのワークショップの成果を報告する。
GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。
この話題について,コミュニティの短期的,長期的目標について論じる。
論文 参考訳(メタデータ) (2023-08-28T18:51:09Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - Modeling Transformative AI Risks (MTAIR) Project -- Summary Report [0.0]
このレポートは、Cottier氏とShah氏による以前の図に基づいており、いくつかの説明とともに、視覚的に重要な不一致(クラックス)をいくつか説明した。
このモデルは、アナロジーと人工知能に関する一般的な以前の信念による推論に関する議論から始まる。
さまざまなパスのモデルをレイアウトし、ハイレベルなマシンインテリジェンスのためのテクノロジーと、これらのシステムの能力の進歩のモデルを構築している。
このモデルは、学習した最適化の問題や、機械学習システムがメザ最適化を作成するかどうかについても特に注目している。
論文 参考訳(メタデータ) (2022-06-19T09:11:23Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - A Short Survey of Pre-trained Language Models for Conversational AI-A
NewAge in NLP [17.10418053437171]
最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性がある。
これらのモデルは、階層的関係、長期依存、感情など、異なる言語の側面を捉えることを実証している。
本論文では,これらの事前学習モデルが対話システムに関連する課題を克服できるかどうかを明らかにする。
論文 参考訳(メタデータ) (2021-04-22T01:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。