Fugu-MT 論文翻訳(概要): Supporting Human-AI Collaboration in Auditing LLMs with LLMs

論文の概要: Supporting Human-AI Collaboration in Auditing LLMs with LLMs

arxiv url: http://arxiv.org/abs/2304.09991v1
Date: Wed, 19 Apr 2023 21:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-21 14:56:13.855372
Title: Supporting Human-AI Collaboration in Auditing LLMs with LLMs
Title（参考訳）: LLMにおける人間とAIの協調支援
Authors: Charvi Rastogi, Marco Tulio Ribeiro, Nicholas King, Saleema Amershi
Abstract要約: 大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。これらの言語モデルを厳格に監査することは重要である。既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
参考スコア（独自算出の注目度）: 10.071604587568796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models are becoming increasingly pervasive and ubiquitous in society via deployment in sociotechnical systems. Yet these language models, be it for classification or generation, have been shown to be biased and behave irresponsibly, causing harm to people at scale. It is crucial to audit these language models rigorously. Existing auditing tools leverage either or both humans and AI to find failures. In this work, we draw upon literature in human-AI collaboration and sensemaking, and conduct interviews with research experts in safe and fair AI, to build upon the auditing tool: AdaTest (Ribeiro and Lundberg, 2022), which is powered by a generative large language model (LLM). Through the design process we highlight the importance of sensemaking and human-AI communication to leverage complementary strengths of humans and generative models in collaborative auditing. To evaluate the effectiveness of the augmented tool, AdaTest++, we conduct user studies with participants auditing two commercial language models: OpenAI's GPT-3 and Azure's sentiment analysis model. Qualitative analysis shows that AdaTest++ effectively leverages human strengths such as schematization, hypothesis formation and testing. Further, with our tool, participants identified a variety of failures modes, covering 26 different topics over 2 tasks, that have been shown before in formal audits and also those previously under-reported.
Abstract（参考訳）: 社会技術的システムへの展開を通じて,大規模言語モデルの普及とユビキタス化が進んでいる。しかし、これらの言語モデルは分類や生成のためのもので、偏見があり、無責任に振る舞うことが示され、大規模に人々に害を与えている。これらの言語モデルを厳密に監査することが重要である。既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。本研究では、人間とAIのコラボレーションとセンスメイキングの文献を取り上げ、安全で公正なAIの専門家とのインタビューを行い、監査ツールであるAdaTest(Ribeiro and Lundberg, 2022)をベースとして、ジェネレーティブな大規模言語モデル(LLM)を活用している。デザインプロセスを通じて,協調監査における人間と生成モデルの補完的強みを活用するために,感性作りと人間-aiコミュニケーションの重要性を強調する。拡張ツールであるAdaTest++の有効性を評価するために,OpenAIのGPT-3とAzureの感情分析モデルという,2つの商用言語モデルを監査する参加者を対象に,ユーザスタディを実施している。定性的分析は、AdaTest++がスキーマ化や仮説形成、テストといった人間の強みを効果的に活用していることを示している。さらに,本ツールでは,2つのタスクに対して26のトピックをカバーし,これまで公式な監査や報告が不十分であったさまざまな障害モードを特定した。

関連論文リスト

Bridging Psychometric and Content Development Practices with AI: A Community-Based Workflow for Augmenting Hawaiian Language Assessments [0.0]
本稿では,教育成果評価(K'EO)プログラムのためのコミュニティベース人工知能(AI)ワークフローの設計と評価を行う。 K'EOは、米国で連邦政府の説明責任のために使用される唯一のネイティブ言語アセスメントである。このプロジェクトでは、文書化された言語モデルが倫理的かつ効果的にアイテムのパフォーマンスの人的分析を増強できるかどうかを調査した。
論文参考訳（メタデータ） (2025-12-19T00:21:48Z)
Evaluation of AI Ethics Tools in Language Models: A Developers' Perspective Case Stud [2.659655189346942]
本稿では,言語モデルにおけるAIETの評価手法を提案する。モデルカード,ALTAI,FactSheets,Harms Modelingの4つのAIETを選択した。評価では、AIETの使用と品質に関する開発者の視点を考慮し、モデルに関する倫理的考慮事項の特定に役立てた。
論文参考訳（メタデータ） (2025-12-16T02:43:37Z)
AIssistant: An Agentic Approach for Human--AI Collaborative Scientific Work on Reviews and Perspectives in Machine Learning [2.464267718050055]
ここでは、AIssistantを用いた最初の実験を、機械学習の研究論文の視点とレビューのために提示する。本システムでは,文学,セクションワイド実験,引用管理,自動文書生成のためのモジュールツールとエージェントを統合している。その効果にもかかわらず、幻覚的引用、動的紙構造への適応の困難、マルチモーダルコンテンツの不完全統合など、重要な制限を識別する。
論文参考訳（メタデータ） (2025-09-14T15:50:31Z)
CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文参考訳（メタデータ） (2025-08-28T06:03:11Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Are Large Language Models the future crowd workers of Linguistics? [0.0]
本研究の目的は,Large Language Models (LLM) が経験的言語パイプラインに含まれる場合,障害を克服できるかどうか,という疑問に答えることである。元々は人間の被験者のために設計された2つの強制的誘発タスクは、OpenAIのGPT-4o-miniモデルの助けを借りて再現される。
論文参考訳（メタデータ） (2025-02-14T16:23:39Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)
Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文参考訳（メタデータ） (2024-05-23T16:50:49Z)
Human-Modeling in Sequential Decision-Making: An Analysis through the Lens of Human-Aware AI [20.21053807133341]
私たちは、人間を意識したAIシステムを構成するものの説明を提供しようとしています。人間を意識したAIはデザイン指向のパラダイムであり、人間と対話するかもしれないモデリングの必要性に焦点を当てている。
論文参考訳（メタデータ） (2024-05-13T14:17:52Z)
Generative AI in Writing Research Papers: A New Type of Algorithmic Bias and Uncertainty in Scholarly Work [0.38850145898707145]
大規模言語モデル(LLM)と生成AIツールは、バイアスを特定し、対処する上での課題を提示している。生成型AIツールは、不正な一般化、幻覚、レッド・チーム・プロンプトのような敵攻撃を目標とする可能性がある。研究原稿の執筆過程に生成AIを組み込むことで,新しいタイプの文脈依存型アルゴリズムバイアスがもたらされることがわかった。
論文参考訳（メタデータ） (2023-12-04T04:05:04Z)
Personality of AI [0.0]
この研究論文は、人間のユーザに合わせて微調整された大規模言語モデルの進化する展望を掘り下げるものである。トレーニング手法がAIモデルにおける未定義の性格特性の形成に与える影響を認識し、この研究はパーソナリティテストを用いた人間の適合プロセスと類似している。この論文は、AIパーソナリティアライメントの急成長する分野における議論と発展の出発点となる。
論文参考訳（メタデータ） (2023-12-03T18:23:45Z)
Can AI Serve as a Substitute for Human Subjects in Software Engineering Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。定性的データの代替源としてAI生成合成テキストの可能性を探る。観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文参考訳（メタデータ） (2023-11-18T14:05:52Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Towards Fair and Explainable AI using a Human-Centered AI Approach [5.888646114353372]
分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。 4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
論文参考訳（メタデータ） (2023-06-12T21:08:55Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。