論文の概要: Co-audit: tools to help humans double-check AI-generated content
- arxiv url: http://arxiv.org/abs/2310.01297v1
- Date: Mon, 2 Oct 2023 15:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:59:07.384978
- Title: Co-audit: tools to help humans double-check AI-generated content
- Title(参考訳): 共同監査:AI生成コンテンツの二重チェックを支援するツール
- Authors: Andrew D. Gordon, Carina Negreanu, Jos\'e Cambronero, Rasika
Chakravarthy, Ian Drosos, Hao Fang, Bhaskar Mitra, Hannah Richardson, Advait
Sarkar, Stephanie Simmons, Jack Williams, Ben Zorn
- Abstract要約: 本稿では,生成モデルを用いたスプレッドシート計算のための協調監査ツールに関する最近の研究について述べる。
我々は,共同監査の原則の予備的リストを提案し,研究課題を概説する。
- 参考スコア(独自算出の注目度): 19.561408256727844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users are increasingly being warned to check AI-generated content for
correctness. Still, as LLMs (and other generative models) generate more complex
output, such as summaries, tables, or code, it becomes harder for the user to
audit or evaluate the output for quality or correctness. Hence, we are seeing
the emergence of tool-assisted experiences to help the user double-check a
piece of AI-generated content. We refer to these as co-audit tools. Co-audit
tools complement prompt engineering techniques: one helps the user construct
the input prompt, while the other helps them check the output response. As a
specific example, this paper describes recent research on co-audit tools for
spreadsheet computations powered by generative models. We explain why co-audit
experiences are essential for any application of generative AI where quality is
important and errors are consequential (as is common in spreadsheet
computations). We propose a preliminary list of principles for co-audit, and
outline research challenges.
- Abstract(参考訳): ユーザーはAIが生成したコンテンツを正しくチェックするよう警告されている。
それでも、LCM(および他の生成モデル)は、要約、テーブル、コードなどのより複雑な出力を生成するため、ユーザーが品質や正確性のために出力を監査または評価することが難しくなる。
そのため、AI生成したコンテンツの二重チェックを支援するツール支援体験の出現が見られます。
これを共同監査ツールと呼ぶ。
1つはユーザが入力プロンプトを構築するのを手助けし、もう1つは出力応答をチェックするのを手助けします。
具体的な例として、生成モデルを用いたスプレッドシート計算のための協調監査ツールについて述べる。
本稿では,品質が重要であり,エラーが連続的(スプレッドシート計算でよく見られる)な生成AIの応用において,コオーディット体験が不可欠である理由を説明する。
我々は,共同監査の原則の予備的リストを提案し,研究課題を概説する。
関連論文リスト
- AuditWen:An Open-Source Large Language Model for Audit [20.173039073935907]
本研究では、Qwenを微調整し、監査領域から命令データを構築するオープンソースの監査LCMであるAuditWenを紹介する。
我々は、15の監査タスクと3つのレイヤから28kの命令データセットを構築したQwenを微調整することで、AuditWenと呼ばれる監査LPMを提案する。
評価段階において、アプリケーションシナリオから派生した重要な監査タスクのセットをカバーする3k命令のベンチマークを提案した。
実験の結果,AuditWenは質問理解と回答生成の両方において優れた性能を示し,即時評価ツールとなった。
論文 参考訳(メタデータ) (2024-10-09T02:28:55Z) - Improving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition [24.845241768474363]
LLMを利用するChatGPT Data Analysisのようなツールは、ユーザがデータ分析プログラミングの難しいタスクに取り組むのに役立つ可能性がある。
しかし、私たちのフォーマティブな研究は、AI生成結果の検証とAIの運営において深刻な課題を明らかにしました。
これらの課題に対処する2つの対照的なアプローチを開発した。
論文 参考訳(メタデータ) (2024-07-02T20:33:50Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Dcc --help: Generating Context-Aware Compiler Error Explanations with
Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。
LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文 参考訳(メタデータ) (2023-08-23T02:36:19Z) - Fact-Checking Complex Claims with Program-Guided Reasoning [99.7212240712869]
Program-Guided Fact-Checking (ProgramFC)は、複雑なクレームを単純なサブタスクに分解する新しいファクトチェックモデルである。
まず,大規模言語モデルの文脈内学習能力を活用して推論プログラムを生成する。
我々は,各サブタスクを対応するサブタスクハンドラに委譲することでプログラムを実行する。
論文 参考訳(メタデータ) (2023-05-22T06:11:15Z) - LLM-based Interaction for Content Generation: A Case Study on the
Perception of Employees in an IT department [85.1523466539595]
本稿では,IT企業の従業員が生成ツールを使用する意図を明らかにするためのアンケート調査を行う。
以上の結果から, 生成ツールの比較的平均的な受容性が示唆されるが, ツールが有用であると認識されるほど, 意図が高くなることが示唆された。
分析の結果, 生産ツールの利用頻度は, 従業員が作業の文脈でこれらのツールをどのように認識しているかを理解する上で重要な要因である可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-18T15:35:43Z) - Collaborative Anomaly Detection [66.51075412012581]
本研究では,タスク間の相関関係を埋め込むことで,全てのタスクを共同で学習するための協調的異常検出(CAD)を提案する。
条件密度推定と条件確率比推定を用いてCADを探索する。
タスク埋め込みモデルを学ぶために、前もって少数のタスクを選択し、それを使ってタスク埋め込みをウォームスタートさせることは有益である。
論文 参考訳(メタデータ) (2022-09-20T18:01:07Z) - The Right Tool for the Job: Open-Source Auditing Tools in Machine
Learning [0.0]
近年,機械学習,AI倫理,アルゴリズム監査の公平性に関する議論が増えている。
多くのオープンソース監査ツールが利用可能だが、ユーザはツールや便利なもの、アクセス方法に常に気付いていない。
本稿は,これらのツールを実際に活用する緊急ニーズの強化と,それを実現するモチベーションの提供を目的としている。
論文 参考訳(メタデータ) (2022-06-20T15:20:26Z) - XAudit : A Theoretical Look at Auditing with Explanations [29.55309950026882]
この研究は、監査における説明の役割を形式化し、モデル説明が監査に役立つかどうかを調査する。
具体的には、線形分類器と決定木を検査し、特徴感度を評価するための説明に基づくアルゴリズムを提案する。
以上の結果から,非現実的説明は監査に極めて有用であることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T19:19:58Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。