論文の概要: Supporting Human-AI Collaboration in Auditing LLMs with LLMs
- arxiv url: http://arxiv.org/abs/2304.09991v3
- Date: Thu, 30 Nov 2023 16:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:45:57.379114
- Title: Supporting Human-AI Collaboration in Auditing LLMs with LLMs
- Title(参考訳): LLMにおける人間とAIの協調支援
- Authors: Charvi Rastogi, Marco Tulio Ribeiro, Nicholas King, Harsha Nori,
Saleema Amershi
- Abstract要約: 大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。
これらの言語モデルを厳格に監査することは重要である。
既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
- 参考スコア(独自算出の注目度): 33.56822240549913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are becoming increasingly pervasive and ubiquitous in
society via deployment in sociotechnical systems. Yet these language models, be
it for classification or generation, have been shown to be biased and behave
irresponsibly, causing harm to people at scale. It is crucial to audit these
language models rigorously. Existing auditing tools leverage either or both
humans and AI to find failures. In this work, we draw upon literature in
human-AI collaboration and sensemaking, and conduct interviews with research
experts in safe and fair AI, to build upon the auditing tool: AdaTest (Ribeiro
and Lundberg, 2022), which is powered by a generative large language model
(LLM). Through the design process we highlight the importance of sensemaking
and human-AI communication to leverage complementary strengths of humans and
generative models in collaborative auditing. To evaluate the effectiveness of
the augmented tool, AdaTest++, we conduct user studies with participants
auditing two commercial language models: OpenAI's GPT-3 and Azure's sentiment
analysis model. Qualitative analysis shows that AdaTest++ effectively leverages
human strengths such as schematization, hypothesis formation and testing.
Further, with our tool, participants identified a variety of failures modes,
covering 26 different topics over 2 tasks, that have been shown before in
formal audits and also those previously under-reported.
- Abstract(参考訳): 社会技術的システムへの展開を通じて,大規模言語モデルの普及とユビキタス化が進んでいる。
しかし、これらの言語モデルは分類や生成のためのもので、偏見があり、無責任に振る舞うことが示され、大規模に人々に害を与えている。
これらの言語モデルを厳密に監査することが重要である。
既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
本研究では、人間とAIのコラボレーションとセンスメイキングの文献を取り上げ、安全で公正なAIの専門家とのインタビューを行い、監査ツールであるAdaTest(Ribeiro and Lundberg, 2022)をベースとして、ジェネレーティブな大規模言語モデル(LLM)を活用している。
デザインプロセスを通じて,協調監査における人間と生成モデルの補完的強みを活用するために,感性作りと人間-aiコミュニケーションの重要性を強調する。
拡張ツールであるAdaTest++の有効性を評価するために,OpenAIのGPT-3とAzureの感情分析モデルという,2つの商用言語モデルを監査する参加者を対象に,ユーザスタディを実施している。
定性的分析は、AdaTest++がスキーマ化や仮説形成、テストといった人間の強みを効果的に活用していることを示している。
さらに,本ツールでは,2つのタスクに対して26のトピックをカバーし,これまで公式な監査や報告が不十分であったさまざまな障害モードを特定した。
関連論文リスト
- Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Human-Modeling in Sequential Decision-Making: An Analysis through the Lens of Human-Aware AI [20.21053807133341]
私たちは、人間を意識したAIシステムを構成するものの説明を提供しようとしています。
人間を意識したAIはデザイン指向のパラダイムであり、人間と対話するかもしれないモデリングの必要性に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-13T14:17:52Z) - Generative AI in Writing Research Papers: A New Type of Algorithmic Bias
and Uncertainty in Scholarly Work [0.38850145898707145]
大規模言語モデル(LLM)と生成AIツールは、バイアスを特定し、対処する上での課題を提示している。
生成型AIツールは、不正な一般化、幻覚、レッド・チーム・プロンプトのような敵攻撃を目標とする可能性がある。
研究原稿の執筆過程に生成AIを組み込むことで,新しいタイプの文脈依存型アルゴリズムバイアスがもたらされることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:05:04Z) - Personality of AI [0.0]
この研究論文は、人間のユーザに合わせて微調整された大規模言語モデルの進化する展望を掘り下げるものである。
トレーニング手法がAIモデルにおける未定義の性格特性の形成に与える影響を認識し、この研究はパーソナリティテストを用いた人間の適合プロセスと類似している。
この論文は、AIパーソナリティアライメントの急成長する分野における議論と発展の出発点となる。
論文 参考訳(メタデータ) (2023-12-03T18:23:45Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Towards Fair and Explainable AI using a Human-Centered AI Approach [5.888646114353372]
分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。
最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。
第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。
第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。
4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
論文 参考訳(メタデータ) (2023-06-12T21:08:55Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。